大模型日报(1月11-12日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(1月11-12日 资讯篇)

资讯

01

UC伯克利开源32B推理模型Sky-T1

2025年,随着推理模型的开发成本大幅下降,AI技术迎来了新一轮突破。加州大学伯克利分校的NovaSky团队推出了Sky-T1-32B-Preview模型,训练成本仅为450美元,远低于以往数百万美元的开发费用。这款模型在多个基准测试中表现出色,甚至与OpenAI的早期版本o1相媲美。最重要的是,Sky-T1是第一个完全开源的推理模型,团队不仅发布了模型权重,还公开了训练数据和代码,极大促进了学术界和开源社区的参与。
Sky-T1的训练依赖于合成数据,借助QwQ-32B-Preview模型和GPT-4o-mini进行数据处理和质量提高。训练过程中,团队采用拒绝采样和数据重格式化等手段,确保了数据的高质量,从而提高了模型的推理性能。Sky-T1在数学和编程领域的推理表现出色,尤其是在竞赛级数学问题和编码挑战上超越了OpenAI的早期版本。然而,尽管Sky-T1在某些方面优于o1的预览版,但在一些专业问题上仍略逊色。
此次模型的推出标志着大规模推理模型成本的显著下降,预计不久后个人也能在本地运行类似1万亿参数的模型。团队还通过优化数据混合,提升了模型在数学和编程任务上的能力,证明了模型大小和数据类型对于训练效果的巨大影响。这一创新为推理模型的开源和普及提供了新的可能,未来有望加速AI技术的应用与发展。
大模型日报(1月11-12日 资讯篇)
htt‍ps://mp.weixin.qq.com/s/uQxHkPeLQkiZ0y8NEF5bmg
02

迈向System 2推理,100页论文硬核讲述Meta-CoT

斯坦福大学博士生Rafael Rafailov参与的新研究《Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought》提出了一种名为Meta-CoT的新推理框架,旨在提升大语言模型(LLMs)的推理能力。传统的思维链(CoT)方法在处理简单问题时表现良好,但无法有效处理复杂问题。研究认为,复杂问题的解答并非简单的从左到右自回归生成,而是涉及非线性、迭代的推理过程。Meta-CoT通过显式建模这一潜在的“思考”过程,扩展了传统的思维链方法,为高级推理任务提供了更完整的框架。
Meta-CoT的核心思想源于认知科学中的双过程理论,类似于人类的System 2推理,强调推理过程中的反思、搜索与验证。传统的思维链方法通常缺乏对推理过程的深入建模,导致模型在处理复杂问题时容易失败。作者通过引入过程监督、搜索算法(如蒙特卡洛树搜索MCTS和A*)等技术,解决了这一问题。特别是在高级数学和目标导向问题上,Meta-CoT通过内部搜索和验证,显著提高了推理能力。
本文还介绍了一个名为STaR(Self-Taught Reasoner)的方法,旨在通过迭代强化学习训练帮助模型内化推理过程。此外,研究还探讨了如何通过合成数据生成和搜索算法训练Meta-CoT模型,并提出了过程奖励模型(PRM)来优化搜索过程。作者认为,内化深思熟虑的推理过程将使得语言模型不仅能够解决复杂问题,还能在超智能层面上发挥更大的潜力。
总之,Meta-CoT框架为提升LLMs的推理能力提供了一种新的思路,强调推理过程中复杂的探索和验证步骤。通过结合搜索与强化学习,该框架为更强大的语言模型的开发提供了理论支持和实践路线图。这一研究不仅为人工智能的发展开辟了新方向,也为处理复杂推理问题提供了更强有力的工具。
大模型日报(1月11-12日 资讯篇)
https://‍mp.weixin.qq.com/s/RDYkxn5‍i1IuuiQabrUM5Lw
03
元资助

2025年AI Agent投资展望

  1. 软件估值处于底部,自7月以来的涨幅主要由降息和IT预算修复推动。10月底以来,Agent叙事不断强化,市场开始关注此前估值较低的软件股,期待Agent催化修复估值。后续需关注Agent商业化逻辑的落地。过去1-2年的AI商业化尝试使行业形成共识,Chatbot形式交互成本高,融入企业工作流和用户交互流较困难,需要调整架构以融入流程。Agentforce等产品初步反馈积极,Snowflake已看到AI/ML的初步收入,行业展望IT需求边际向好和AI商业化逐步落地,趋势乐观。

  2. OA和ERP构成企业数据交汇的核心数字化基座,赋能企业经营全流程。在本轮生成式AI浪潮中,自然语言交互和学习能力提升为核心发展方向,Agent进一步推动了AI应用落地。OA/ERP通过与Agent结合,能够自动化执行完成复杂任务,预计将成为新的企业入口级平台。当前,国内外OA/ERP厂商均积极布局Agent发展,相关领域有望迎来商业化快速落地。

  3. Salesforce的FY3Q25业绩会上,管理层着重强调Agentforce的亮眼表现,仅1周完成200笔订单,四季度将全球招聘1400位销售人员加大推广该AI Agent产品。Agentforce连通公司的销售、服务、营销、分析、数据云、Slack等全产品线,为客户实现提升工作效率、优化服务体验、降低人员成本等目的。Agentforce有望大幅减少客户的员工成本,以附加服务的方式推广,并按使用量付费,每次对话1美元,定价大幅低于8-10美元每次的人工销售成本。

  4. 海内外大厂积极布局AI Agent,智谱正式发布AutoGLM等三款Agent产品,已与荣耀、小鹏、华硕达成生态合作。海外苹果、微软、谷歌等大厂均布局AI Agent,OpenAI有望在2025年发布Agent产品Operator,企业客户布局需求高。后续看点包括短期视角下的模型端和应用端的进展,以及中长期视角下国内应用在广告、电商、办公等B端和C端场景的加速落地。

  5. Agent目前已经成为全球科技巨头重点发力方向,C端、B端均开始产品的快速迭代。C端更重视综合能力,B端更强调对业务流的理解、群体智能和专业Agent的打造,预计各类Agent将在2025年进入快速落地阶段。随着Agent的普及,推理算力消耗将会大增,多个Agent之间通信、协作时,消耗的token、算力指数级增长。

  6. 智谱的AutoGLM成为国内首个公开可用、完成复杂任务的AI Agent,支持自动操控App,集成语音交互、屏幕识别、任务规划等一系列AI功能,目前可以在安卓端申请使用。AutoGLM支持调用微信、淘宝、美团等8个常用APP,自动实现订酒店、总结攻略、转发聊天等一系列操作。端侧AI Agent未来手机硬件厂商、应用APP、大模型公司三方均有发展空间。

  7. 2024年10月,字节跳动豆包发布AI智能体耳机Ola Friend,智谱AI推出自主智能体AutoGLM,金蝶发布AI管理助手苍穹APP,苹果发布IOS 18.1系统更新引入Apple Intelligence。这些AI Agent的密集发布,带来了更自然的AI交互体验,有望推动AI应用加速发展。当前AI落地进一步加速,尤其Agent已成为各类厂商主流尝试方向,有望改变多流量入口形式。C端场景中,端侧AI作为新一代计算平台形态多样,产品落地确定性较强;B端场景中AI生产力工具商业化已呈现加速趋势,有望为企业带来业绩增长拐点。

  8. 24Q3基金对计算机重仓持股比例为2.95%,较2024Q2环比提升0.45pct,但仍处近三年历史较低水平。近期AI Agent的密集发布,有望推动AI应用加速发展。投资建议包括关注估值修复+顺周期白马标的、互金和券商IT、预期反转类IT公司、国产化方向、华为及特斯拉近期事件催化下的相关产业链企业、数据要素政策催化等。

大模型日报(1月11-12日 资讯篇)

https:‍//mp‍.weixin.qq.com/s/BiLIEr-vnmegGxvWvEUDnA

04
元资助

OpenAI被曝重组机器人团队

在CES大会上,黄仁勋再次提到机器人领域的“ChatGPT时刻”即将到来,AI的发展将从纯语言理解扩展到物理世界的深度认知。OpenAI也在这一浪潮中积极布局,重新整顿其机器人团队。据报道,OpenAI正在开发一款搭载定制传感器的机器人,并为此招聘了包括电子感知工程师、机器人机械设计工程师和技术项目经理在内的多个岗位。目标是打造“通用”且“自适应”的机器人,这些机器人能够在真实世界中展现近似人类的智能。OpenAI的硬件团队将自主开发传感器和计算组件,并通过自研的AI模型驱动机器人。
OpenAI对机器人领域的重视并非新鲜事,早在2017年,其就推出了Roboschool,并展示了能够解魔方的机械臂。尽管在2020年由于缺乏足够的数据,OpenAI曾解散机器人团队,转而专注于其他AI技术的发展,但随着资金和资源的积累,OpenAI决定重新启动机器人项目。其重启机器人研发的背后,也包含了与人形机器人公司如1X Technologies和Figure的投资合作,进一步推动了机器人技术的突破。
此时,OpenAI的硬件布局显得尤为重要,尤其是其与前苹果设计师Jony Ive的合作,以及自研AI芯片的发布,都表明OpenAI正在加速进入硬件领域。尽管机器人研发面临资金和数据等挑战,但随着OpenAI资金雄厚、技术逐渐成熟,重启机器人项目无疑是其迈向AGI(通用人工智能)的一步重要战略。
大模型日报(1月11-12日 资讯篇)

https://mp.weixin‍.qq.co‍m/s‍/B‍iLIEr-vnmegGxvWvEUDnA

推特

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

Unsloth AI现在支持在 Colab 上免费微调 Phi-4 

现在您可以在 Colab 上免费微调 Phi-4 啦!
Unsloth 实现了更高效的 LLM 微调:
• 速度提升 2 倍
• 显存减少 70%
• 上下文长度延长 12 倍
• 且无精度损失
GitHub 仓库:https://github.com/unslothai/unsloth
文档地址:https://docs.unsloth.ai
Phi-4 Colab 链接:https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Phi_4-Conversational.ipynb
大模型日报(1月11-12日 资讯篇)
https://x.com/UnslothAI/status/1877779176473944212
02 

Kokoro 82M:基于 APACHE 2.0 许可的文本转语音模型,仅使用不到 100 小时的音频

全新发布:Kokoro 82M基于 APACHE 2.0 许可的文本转语音(Text to Speech)模型,仅使用不到 100 小时的音频训练完成 🔥

大模型日报(1月11-12日 资讯篇)

https://x.com/reach_vb/status/1877773277571014882
03 

Naklecha分享《强化学习指南》:深入解析了该领域每一个基础算法的直觉和实现细节

今天,我很高兴发布一份强化学习指南,深入解析了该领域每一个基础算法的直觉和实现细节。希望大家喜欢!😊
http://naklecha.com/reinforcement-learning
大模型日报(1月11-12日 资讯篇)
https://x.com/naklecha/status/1878080308903284866

04

Sky-T1-32B-Preview:开源模型,在热门推理和编程基准测试中表现可与 o1-preview 媲美

我们推出了 Sky-T1-32B-Preview,一款推理模型,在热门推理和编程基准测试中表现可与 o1-preview 媲美。值得注意的是,Sky-T1-32B-Preview 的训练成本不到 450 美元,这表明高水平推理能力可以以低成本、高效率实现。所有代码均为开源。
大模型日报(1月11-12日 资讯篇)
https://novasky-ai.github.io/posts/sky-t1/

产品

01

21st.dev

21st.dev 借助其用户友好的界面和灵活的设置,您可以自由调整透视角度、光影方向和强度,快速优化设计布局。无论是网站原型、产品展示,还是创意插画,Perspective 都为您提供无限可能,让您的设计更具层次感和专业水准。让您的作品从平面中脱颖而出,捕获每一位观众的目光!
大模型日报(1月11-12日 资讯篇)
https://21st.dev/?ref=producthunt
02

Perspective Figma 插件

Perspective 是一款强大的 Figma 插件,专为设计师打造,通过直观而有趣的透视变换和阴影效果,为您的设计作品增添深度和维度。无论是创建逼真的场景,还是为平面设计赋予动态视觉效果,Perspective 都能帮助您轻松实现。让您的 AI 网站看起来既专业又美观。从全球最大的 UI 元素市场中复制并粘贴到 v0、Cursor、Bolt、Lovable 和 Replit 等工具中,快速实现设计目标。通过超过 50 位专业设计工程师的创意作品获取灵感,为您的设计注入创新思维。同时,您还可以发布自己的设计工程作品,与全球设计社区共享,展现您的专业能力,让更多人受益于您的创作。
大模型日报(1月11-12日 资讯篇)https://www.figma.com/community/plugin/1459523089148854271/perspective

 投融资

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

软银和 Arm 可能收购服务器芯片供应商 Ampere

根据知情人士的透露,软银集团及其控股子公司Arm Holdings Plc正在考虑收购Ampere Computing。Ampere是一家获得甲骨文支持的半导体设计公司。此交易的谈判正在进行当中,但由于讨论仍处于私下阶段,相关人士要求匿名。此外,知情人士还警告称,这一收购计划仍存在不确定性,交易可能最终会破裂,且Ampere也可能被其他公司收购。尽管如此,Arm对Ampere的兴趣引发了广泛关注,可能会对半导体行业产生影响。
公司官网:https://amperecomputing.com/zh-CN
大模型日报(1月11-12日 资讯篇)
https://www.reuters.com/technology/softbank-arm-weigh-acquiring-ampere-computing-bloomberg-reports-2025-01-09/


推荐阅读

— END —

1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/32699.html

Like (0)
Previous 2025-01-11 08:51
Next 2025-01-13 15:33

相关推荐