我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告：ResearchFlow — 奇绩F23校友的开发的深度研究产品，PC端进入RFlow的分析报告，可直接点击节点右侧的小数字展开节点，登录后可在节点上直接“询问AI”，进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

UC伯克利开源32B推理模型Sky-T1

2025年，随着推理模型的开发成本大幅下降，AI技术迎来了新一轮突破。加州大学伯克利分校的NovaSky团队推出了Sky-T1-32B-Preview模型，训练成本仅为450美元，远低于以往数百万美元的开发费用。这款模型在多个基准测试中表现出色，甚至与OpenAI的早期版本o1相媲美。最重要的是，Sky-T1是第一个完全开源的推理模型，团队不仅发布了模型权重，还公开了训练数据和代码，极大促进了学术界和开源社区的参与。

Sky-T1的训练依赖于合成数据，借助QwQ-32B-Preview模型和GPT-4o-mini进行数据处理和质量提高。训练过程中，团队采用拒绝采样和数据重格式化等手段，确保了数据的高质量，从而提高了模型的推理性能。Sky-T1在数学和编程领域的推理表现出色，尤其是在竞赛级数学问题和编码挑战上超越了OpenAI的早期版本。然而，尽管Sky-T1在某些方面优于o1的预览版，但在一些专业问题上仍略逊色。

此次模型的推出标志着大规模推理模型成本的显著下降，预计不久后个人也能在本地运行类似1万亿参数的模型。团队还通过优化数据混合，提升了模型在数学和编程任务上的能力，证明了模型大小和数据类型对于训练效果的巨大影响。这一创新为推理模型的开源和普及提供了新的可能，未来有望加速AI技术的应用与发展。

htt‍ps://mp.weixin.qq.com/s/uQxHkPeLQkiZ0y8NEF5bmg

迈向System 2推理，100页论文硬核讲述Meta-CoT

斯坦福大学博士生Rafael Rafailov参与的新研究《Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought》提出了一种名为Meta-CoT的新推理框架，旨在提升大语言模型（LLMs）的推理能力。传统的思维链（CoT）方法在处理简单问题时表现良好，但无法有效处理复杂问题。研究认为，复杂问题的解答并非简单的从左到右自回归生成，而是涉及非线性、迭代的推理过程。Meta-CoT通过显式建模这一潜在的“思考”过程，扩展了传统的思维链方法，为高级推理任务提供了更完整的框架。

Meta-CoT的核心思想源于认知科学中的双过程理论，类似于人类的System 2推理，强调推理过程中的反思、搜索与验证。传统的思维链方法通常缺乏对推理过程的深入建模，导致模型在处理复杂问题时容易失败。作者通过引入过程监督、搜索算法（如蒙特卡洛树搜索MCTS和A*）等技术，解决了这一问题。特别是在高级数学和目标导向问题上，Meta-CoT通过内部搜索和验证，显著提高了推理能力。

本文还介绍了一个名为STaR（Self-Taught Reasoner）的方法，旨在通过迭代强化学习训练帮助模型内化推理过程。此外，研究还探讨了如何通过合成数据生成和搜索算法训练Meta-CoT模型，并提出了过程奖励模型（PRM）来优化搜索过程。作者认为，内化深思熟虑的推理过程将使得语言模型不仅能够解决复杂问题，还能在超智能层面上发挥更大的潜力。

总之，Meta-CoT框架为提升LLMs的推理能力提供了一种新的思路，强调推理过程中复杂的探索和验证步骤。通过结合搜索与强化学习，该框架为更强大的语言模型的开发提供了理论支持和实践路线图。这一研究不仅为人工智能的发展开辟了新方向，也为处理复杂推理问题提供了更强有力的工具。

https://‍mp.weixin.qq.com/s/RDYkxn5‍i1IuuiQabrUM5Lw

元资助

2025年AI Agent投资展望

软件估值处于底部，自7月以来的涨幅主要由降息和IT预算修复推动。10月底以来，Agent叙事不断强化，市场开始关注此前估值较低的软件股，期待Agent催化修复估值。后续需关注Agent商业化逻辑的落地。过去1-2年的AI商业化尝试使行业形成共识，Chatbot形式交互成本高，融入企业工作流和用户交互流较困难，需要调整架构以融入流程。Agentforce等产品初步反馈积极，Snowflake已看到AI/ML的初步收入，行业展望IT需求边际向好和AI商业化逐步落地，趋势乐观。
OA和ERP构成企业数据交汇的核心数字化基座，赋能企业经营全流程。在本轮生成式AI浪潮中，自然语言交互和学习能力提升为核心发展方向，Agent进一步推动了AI应用落地。OA/ERP通过与Agent结合，能够自动化执行完成复杂任务，预计将成为新的企业入口级平台。当前，国内外OA/ERP厂商均积极布局Agent发展，相关领域有望迎来商业化快速落地。
Salesforce的FY3Q25业绩会上，管理层着重强调Agentforce的亮眼表现，仅1周完成200笔订单，四季度将全球招聘1400位销售人员加大推广该AI Agent产品。Agentforce连通公司的销售、服务、营销、分析、数据云、Slack等全产品线，为客户实现提升工作效率、优化服务体验、降低人员成本等目的。Agentforce有望大幅减少客户的员工成本，以附加服务的方式推广，并按使用量付费，每次对话1美元，定价大幅低于8-10美元每次的人工销售成本。
海内外大厂积极布局AI Agent，智谱正式发布AutoGLM等三款Agent产品，已与荣耀、小鹏、华硕达成生态合作。海外苹果、微软、谷歌等大厂均布局AI Agent，OpenAI有望在2025年发布Agent产品Operator，企业客户布局需求高。后续看点包括短期视角下的模型端和应用端的进展，以及中长期视角下国内应用在广告、电商、办公等B端和C端场景的加速落地。
Agent目前已经成为全球科技巨头重点发力方向，C端、B端均开始产品的快速迭代。C端更重视综合能力，B端更强调对业务流的理解、群体智能和专业Agent的打造，预计各类Agent将在2025年进入快速落地阶段。随着Agent的普及，推理算力消耗将会大增，多个Agent之间通信、协作时，消耗的token、算力指数级增长。
智谱的AutoGLM成为国内首个公开可用、完成复杂任务的AI Agent，支持自动操控App，集成语音交互、屏幕识别、任务规划等一系列AI功能，目前可以在安卓端申请使用。AutoGLM支持调用微信、淘宝、美团等8个常用APP，自动实现订酒店、总结攻略、转发聊天等一系列操作。端侧AI Agent未来手机硬件厂商、应用APP、大模型公司三方均有发展空间。
2024年10月，字节跳动豆包发布AI智能体耳机Ola Friend，智谱AI推出自主智能体AutoGLM，金蝶发布AI管理助手苍穹APP，苹果发布IOS 18.1系统更新引入Apple Intelligence。这些AI Agent的密集发布，带来了更自然的AI交互体验，有望推动AI应用加速发展。当前AI落地进一步加速，尤其Agent已成为各类厂商主流尝试方向，有望改变多流量入口形式。C端场景中，端侧AI作为新一代计算平台形态多样，产品落地确定性较强；B端场景中AI生产力工具商业化已呈现加速趋势，有望为企业带来业绩增长拐点。
24Q3基金对计算机重仓持股比例为2.95%，较2024Q2环比提升0.45pct，但仍处近三年历史较低水平。近期AI Agent的密集发布，有望推动AI应用加速发展。投资建议包括关注估值修复+顺周期白马标的、互金和券商IT、预期反转类IT公司、国产化方向、华为及特斯拉近期事件催化下的相关产业链企业、数据要素政策催化等。

https:‍//mp‍.weixin.qq.com/s/BiLIEr-vnmegGxvWvEUDnA

元资助

OpenAI被曝重组机器人团队

在CES大会上，黄仁勋再次提到机器人领域的“ChatGPT时刻”即将到来，AI的发展将从纯语言理解扩展到物理世界的深度认知。OpenAI也在这一浪潮中积极布局，重新整顿其机器人团队。据报道，OpenAI正在开发一款搭载定制传感器的机器人，并为此招聘了包括电子感知工程师、机器人机械设计工程师和技术项目经理在内的多个岗位。目标是打造“通用”且“自适应”的机器人，这些机器人能够在真实世界中展现近似人类的智能。OpenAI的硬件团队将自主开发传感器和计算组件，并通过自研的AI模型驱动机器人。

OpenAI对机器人领域的重视并非新鲜事，早在2017年，其就推出了Roboschool，并展示了能够解魔方的机械臂。尽管在2020年由于缺乏足够的数据，OpenAI曾解散机器人团队，转而专注于其他AI技术的发展，但随着资金和资源的积累，OpenAI决定重新启动机器人项目。其重启机器人研发的背后，也包含了与人形机器人公司如1X Technologies和Figure的投资合作，进一步推动了机器人技术的突破。

此时，OpenAI的硬件布局显得尤为重要，尤其是其与前苹果设计师Jony Ive的合作，以及自研AI芯片的发布，都表明OpenAI正在加速进入硬件领域。尽管机器人研发面临资金和数据等挑战，但随着OpenAI资金雄厚、技术逐渐成熟，重启机器人项目无疑是其迈向AGI（通用人工智能）的一步重要战略。

https://mp.weixin‍.qq.co‍m/s‍/B‍iLIEr-vnmegGxvWvEUDnA

推特

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

Unsloth AI现在支持在 Colab 上免费微调 Phi-4

现在您可以在 Colab 上免费微调 Phi-4 啦！

Unsloth 实现了更高效的 LLM 微调：

• 速度提升 2 倍

• 显存减少 70%

• 上下文长度延长 12 倍

• 且无精度损失

GitHub 仓库：https://github.com/unslothai/unsloth

文档地址：https://docs.unsloth.ai

Phi-4 Colab 链接：https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Phi_4-Conversational.ipynb

https://x.com/UnslothAI/status/1877779176473944212

Kokoro 82M：基于 APACHE 2.0 许可的文本转语音模型，仅使用不到 100 小时的音频

全新发布：Kokoro 82M基于 APACHE 2.0 许可的文本转语音（Text to Speech）模型，仅使用不到 100 小时的音频训练完成 🔥

https://x.com/reach_vb/status/1877773277571014882

Naklecha分享《强化学习指南》：深入解析了该领域每一个基础算法的直觉和实现细节

今天，我很高兴发布一份强化学习指南，深入解析了该领域每一个基础算法的直觉和实现细节。希望大家喜欢！😊

http://naklecha.com/reinforcement-learning

https://x.com/naklecha/status/1878080308903284866

Sky-T1-32B-Preview：开源模型，在热门推理和编程基准测试中表现可与 o1-preview 媲美

我们推出了 Sky-T1-32B-Preview，一款推理模型，在热门推理和编程基准测试中表现可与 o1-preview 媲美。值得注意的是，Sky-T1-32B-Preview 的训练成本不到 450 美元，这表明高水平推理能力可以以低成本、高效率实现。所有代码均为开源。

https://novasky-ai.github.io/posts/sky-t1/

产品

21st.dev

21st.dev 借助其用户友好的界面和灵活的设置，您可以自由调整透视角度、光影方向和强度，快速优化设计布局。无论是网站原型、产品展示，还是创意插画，Perspective 都为您提供无限可能，让您的设计更具层次感和专业水准。让您的作品从平面中脱颖而出，捕获每一位观众的目光！

https://21st.dev/?ref=producthunt

Perspective Figma 插件

Perspective 是一款强大的 Figma 插件，专为设计师打造，通过直观而有趣的透视变换和阴影效果，为您的设计作品增添深度和维度。无论是创建逼真的场景，还是为平面设计赋予动态视觉效果，Perspective 都能帮助您轻松实现。让您的 AI 网站看起来既专业又美观。从全球最大的 UI 元素市场中复制并粘贴到 v0、Cursor、Bolt、Lovable 和 Replit 等工具中，快速实现设计目标。通过超过 50 位专业设计工程师的创意作品获取灵感，为您的设计注入创新思维。同时，您还可以发布自己的设计工程作品，与全球设计社区共享，展现您的专业能力，让更多人受益于您的创作。

https://www.figma.com/community/plugin/1459523089148854271/perspective

投融资

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

软银和 Arm 可能收购服务器芯片供应商 Ampere

根据知情人士的透露，软银集团及其控股子公司Arm Holdings Plc正在考虑收购Ampere Computing。Ampere是一家获得甲骨文支持的半导体设计公司。此交易的谈判正在进行当中，但由于讨论仍处于私下阶段，相关人士要求匿名。此外，知情人士还警告称，这一收购计划仍存在不确定性，交易可能最终会破裂，且Ampere也可能被其他公司收购。尽管如此，Arm对Ampere的兴趣引发了广泛关注，可能会对半导体行业产生影响。

公司官网：https://amperecomputing.com/zh-CN