我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
资讯
Ilya宣判后GPT-5被曝屡训屡败,一次训数月,数据要人工从头构建
OpenAI的GPT-5目前面临多重挑战,进展远未达到预期。尽管GPT-5已经进行了两轮长达数月的训练,每次训练后都遇到了新问题,导致其发布延迟。训练成本极为高昂,每轮6个月的训练仅算力消耗就高达5亿美元,且在尝试提高效率时,问题依然没有得到有效解决。OpenAI为了满足GPT-5预训练的需求,专门雇佣工程师和数学家从头构建数据,甚至使用O1合成数据,但效率仍然不高。
GPT-5的目标是具备更高的智能水平,能够进行科学探索、完成复杂的日常任务并减少错误,如减少幻觉等。然而,这一目标的实现进展缓慢。GPT-5的开发始于GPT-4发布时,已有超过18个月的时间,原计划2024年中发布,但目前仍未明确发布日期。
与此同时,OpenAI发布的O1和O3系列却展现出了令人瞩目的成果,尤其是在ARC-AGI测试中,O3的表现刷新了记录,准确率达到91.5%,远超GPT-4。O3通过在Token空间内搜索和执行,展示了新的知识重组机制,标志着推理Scaling Law的成功,并为未来AGI的发展提供了新的思路。尽管如此,O3仍未达到AGI的标准,特别是在一些简单任务上仍然失败。
OpenAI目前的策略似乎正在调整,随着GPT系列的进化速度放缓,O1和O3系列的推出成为了新的方向。虽然GPT-5仍在开发中,但其能否如预期带来重大飞跃仍然充满不确定性。即便如此,O3在ARC-AGI等任务中的表现仍证明了其在广泛任务上的能力,展示了人工智能在解决复杂问题上的潜力。
o3来了!编程跻身人类全球前200,破解陶哲轩说难的数学测试
OpenAI最近发布了其下一代模型O3,并在“双12”直播活动中展示了其强大能力。O3相较于O1在多个领域表现出色,尤其是在顶尖程序员竞赛CodeForces中,O3的分数超过2700,这个成绩仅有不到200个人类能达到。此外,O3在为AGI(人工通用智能)设计的ARC-AGI测试中的表现也显著提升,从32%跃升到75.7%甚至87.5%,支持低、高思考程度设置,使得计算能力得到了充分发挥。
ARC-AGI测试是由Keras之父François Chollet发起,主要考察图形逻辑推理能力。而在EpochAI Frontier Math测试中,O3的表现远超以往的SOTA(最先进技术),从2分提升到25分,这项测试包含了最新的未公开数学题,难度堪比陶哲轩等数学家的挑战。
除了O3,OpenAI还推出了O3-mini版本,支持低、中、高三种思考程度设置,特别展示了其编程能力。在低设置下,O3-mini与O1-mini表现相似,而在高设置下,O3-mini已超越O1正式版。北大校友任泓宇在直播中展示了O3-mini的编程能力,演示了一个Python脚本生成、执行过程,其中O3-mini在38秒内完成了任务,成功生成并执行代码。
有趣的是,O3-mini甚至能够在其自身生成的UI中编写代码并执行,评估其在低思考程度下的表现。演示结果显示,O3-mini在GPQA数据集上的评分为61.62%,接近正式评估结果。
尽管如此,O3和O3-mini目前仅为早期预览版本,仅限安全研究者申请访问。此次直播还透露了OpenAI的核心开发者——北大校友任泓宇的背景,他在加入OpenAI之前曾在多个科技公司积累丰富经验,包括Apple、Google、NVIDIA和Microsoft。
这次发布不仅展现了O3及其子版本的卓越能力,也再次引发了公众对人工智能未来发展的讨论,甚至让人感觉有些科幻色彩。https://mp.weixin.qq.com/s/mYO_Y3zlbce9yJ8TrO3l5A
MIT工程师成功研发“高楼”3D芯片技术
麻省理工学院(MIT)的工程师成功开发了一种新型的3D芯片技术,通过直接将多层半导体材料叠加在一起,突破了传统硅基芯片的局限。这项研究的关键在于,MIT团队成功地避免了使用厚重的硅基晶圆作为支撑,解决了芯片之间通信慢、效率低的问题,极大提升了计算速度和数据传输效率。
3D芯片设计:传统芯片将更多晶体管挤压到单一表面,但MIT的团队通过多层半导体材料叠加,成功将芯片从“平面”转变为“高楼”。这一创新不仅让芯片能承载更多数据,还能够执行更加复杂的任务,提升了整体计算能力。
新方法:MIT团队开发的新方法不需要使用传统的硅基晶圆作为支撑,而是直接在不同的半导体层之间建立良好的接触,减少了通信的延迟。这种设计方法能够让AI硬件变得更为高效,未来可能被应用于笔记本电脑、可穿戴设备等领域,甚至能够达到当今超级计算机的运算速度和存储能力。
突破性进展:为了实现这一技术,MIT的工程师们通过借鉴冶金学的原理,解决了低温条件下生长单晶半导体的难题。这项创新方法可以在低于400摄氏度的温度下完成单晶生长,避免了高温对底层电路的损害。
潜力与未来:MIT团队预计,未来该技术可以实现数十层甚至数百层的逻辑和内存层叠,极大提高芯片的计算能力和数据存储能力,为AI、大数据、内存等领域带来巨大的应用潜力。
https://news.mit.edu/2024/mit-engineers-grow-high-rise-3d-chips-1218
AI应用进展最新跟踪
近年来BAT及字节等互联网厂商积极投入AI产业,均形成了从模型到平台,最终到应用和设备的全面布局。随着AI商业化逐步进入落地阶段,尤其Agent、AI眼镜、AI耳机、AI玩具等产品引发市场关注,AI产业有望进一步加速。
推特
00 Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
Schmid分享:如何在 2025 年使用 Huggingface 微调开放 LLM
很高兴与大家分享《如何在 2025 年使用 @huggingface 微调开放 LLM》,涵盖从 Q-LoRA 到 Spectrum 方法的一切,重点关注优化、效率和分布式训练 👀
尽管模型不断优化,但微调在特定场景中仍然非常重要,尤其是在以下方面:
🎯 如何定义适合微调的用例,与直接使用提示(prompting)进行对比
🛠️ 如何使用 Hugging Face 的库设置开发环境
⚡ 使用 Q-LoRA 进行高效的 4-bit 训练,或采用 Spectrum 方法选择性微调重要层
💨 利用 Flash Attention 和 Liger Kernels 加速训练
💻 使用 DeepSpeed 和 accelerate 在多 GPU 上扩展训练规模
https://x.com/_philschmid/status/1870104855353671864
Anderson分享直播:每位 LLM 开发者都需要了解的 GPU 知识
昨天,我与 @charles_irl(@modal_labs)一起进行了长达 2 小时的直播,主题是《每位 LLM 开发者都需要了解的 GPU 知识》。以下是我们讨论的一些主题内容。
https://youtube.com/live/INryb8Hjk3c
https://x.com/hugobowne/status/1870253760108474607
AI制作视频引热议:卡比兽下雪了
https://x.com/hardmaru/status/1870642563021234573
Yao Fu谈开源闭源模型差距:不要追逐竞争,不要试图赶上,不要参与游戏,进行严格的科学研究
Wenhu Chen:开源模型和闭源模型之间的差距越来越大。
Yao Fu回复:不要追逐竞争。不要试图赶上。不要参与游戏。相反,要进行严格的科学研究。做受控实验,明确假设,仔细检查备选假设,排除混杂因素。把《LLM 的物理学教程》听十遍,背下每一个字。我已经记不清上一次看到关于 LLM 的论文明确陈述假设、进行受控实验、排除混杂因素或检查备选假设是什么时候了。他们只是说:“我们试了一些方法,这个方法有效,但不确定为什么。可能是数据好,但也不确定‘好’的定义是什么。”我们还记得“备选假设”的定义吗?这是高中就教过的东西啊。所以,拜托,请帮助我们将“炼金术”变成科学。
https://x.com/Francis_YAO_/status/1870400834607124515
产品
Revfx 账户相似 利用人工智能精准查找相似账户
Revfx AI Lookalikes 是一款智能客户分析和细分工具,通过深入挖掘最佳客户的特征,帮助企业将广泛的行业转化为高度精准的细分市场。利用强大的人工智能算法,Revfx 可以识别客户的独特属性,并生成自定义行业分类,例如“医疗水疗设备制造商”或其他细分市场,从而更贴近业务需求。工具自动发现符合条件的类似公司,为企业拓展目标客户群提供数据支持。这种高度个性化的市场划分方式,不仅提升了潜在客户定位的准确性,还能显著提高市场营销和销售活动的效率,助力企业快速扩大业务影响力。
https://revfx.ai/lookalike-accounts?ref=producthunt
Eapy 组织、分享和共同创作音乐
Eapy 是一个专为音乐创作者设计的多媒体工作空间,旨在通过音乐将全球的创作者连接在一起。它为用户提供了一个直观的视觉化平台,用于整理和展示创作灵感,轻松组织创作思路。创作者可以在 Eapy 上与他人分享灵感和工作流程,借助社区的力量进行协作,同时也能通过我们专有的 AI 音乐生成模型共同创作原创音乐。这些模型生成的音乐100%无版权,确保创作者可以自由使用而无需担心侵权问题。无论是独立音乐人还是团队合作,Eapy 都为音乐创作的每一步提供了强有力的支持,让音乐的创作过程更加高效、自由和富有灵感。
https://home.eapy.io/?ref=producthunt
投融资
2024年已筹集超过1亿美元的49家美国AI初创公司
2024年,AI初创公司获得了强劲的投资支持,许多企业成功吸引了大量资金。本篇文章总结了截至目前,共有49家美国AI初创公司在2024年筹集了1亿美元以上的资金。
这些公司涵盖了多个AI领域,包括生成式AI、人工智能硬件、自动化、AI平台等。从投资者的角度来看,2024年的资金流入表现强劲,既有新兴投资者,也有传统的大型风险资本公司参与其中。
投资金额:截至2024年底,许多初创公司成功筹集了超过1亿美元的资金。资金来源包括顶级风险投资公司、企业资本和战略投资者。
热门领域:生成式AI、数据分析、自动化、AI芯片和平台技术成为投资者关注的主要方向。
投资趋势:资本集中流入已经成熟的AI应用场景,尤其是生成式AI和企业级AI平台,预示着AI技术的广泛应用前景。
行业巨头参与:不少大型科技公司和投资机构都积极参与这些AI初创公司的融资轮次,为初创公司提供了强大的资金支持和技术资源。
h ttps://techcrunch.com/2024/12/20/heres-the-full-list-of-49-us-ai-startups-that-have-raised-100m-or-more-in-2024/
英伟达通过监管审批收购Run:AI
2024年12月,英伟达成功获得欧洲委员会的批准,完成了对以色列AI公司Run:AI的收购。根据Bloomberg的报道,欧洲委员会一致同意英伟达可以继续进行收购,认为此交易不会在市场上形成垄断,因为即使收购完成,市场上仍然会有其他兼容英伟达硬件的选择。
尽管欧洲监管机构已批准这项交易,但美国司法部仍未批准此收购,具体何时或是否批准尚不清楚。
收购金额:虽然具体交易条款尚未披露,但根据以色列当地媒体的报道,此次收购的估计金额为7亿美元。
收购背景:英伟达于2024年4月首次宣布收购Run:AI,这家以色列AI公司专注于GPU协调平台,旨在帮助数据中心优化AI工作负载的管理。
监管审批:英伟达成功获得了欧盟的批准,表明欧盟对AI市场的整合持支持态度,尤其是在不造成市场垄断的情况下。
https://techcrunch.com/2024/12/20/nvidia-clears-regulatory-hurdle-to-acquire-runai/
— END —
快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/29037.html