我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告：ResearchFlow — 奇绩F23校友的开发的深度研究产品，PC端进入RFlow的分析报告，可直接点击节点右侧的小数字展开节点，登录后可在节点上直接“询问AI”，进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

「Cosmos」技术报告

NVIDIA 在 CES 上发布的 Cosmos 平台标志着物理 AI 领域的一个重要突破。Cosmos 提供了一系列开源、预训练的视频世界模型（WFM），参数范围从 4B 到 14B，专为生成高质量的、基于物理的合成数据而设计，旨在解决机器人技术和自动驾驶等领域的数据不足问题。Cosmos 模型通过20 million小时的视频数据训练，支持文本生成视频和文本加视频生成视频两种方式。其目标是通过为开发者提供通用的机器人技术和自动驾驶技术，打破物理 AI 的技术壁垒，让更多开发者无需具备专业知识或资源便能使用这些技术。

这些模型的训练数据来自精心整理的视频集，视频片段每 256 帧都提供文本描述，并经过视觉语言模型（VLM）处理。视频处理流程通过现代 GPU 硬件实现，利用 H.264 编解码器高效地解码和转码大量视频数据。同时，Cosmos 平台使用预训练的图像/视频理解模型提升数据处理吞吐量，优化了数据的生成和处理效率。

Cosmos 采用基于 Transformer 架构的视频 token 化技术，将视频内容压缩成紧凑的 token 序列，以保留重要的视觉信息并保持计算效率。模型使用连续型和离散型 tokenizer，前者将视频编码为潜在嵌入（如 Stable Diffusion），后者将其转化为离散的潜在编码（如 VideoPoet），这两种方法分别适应不同的生成需求。视频 token 化过程类似于视频编解码，目的是在压缩视频时尽可能保持视觉质量。

Cosmos 的训练过程分为预训练和后训练两个阶段。预训练阶段，模型通过海量视频数据学习生成通用的世界模型，后训练则通过针对特定任务的数据微调，优化模型性能。具体来说，Cosmos 采用了两种模型架构：扩散模型和自回归模型。扩散模型通过逐步去噪生成视频，而自回归模型则是基于已生成内容按序生成后续视频帧。两种方法都有效地将复杂的视频生成问题分解为更容易处理的小问题，从而提高了生成效率。

为保障安全性，Cosmos 配备了完整的护栏系统，包括前置防护和后置防护机制。前置防护通过阻止有害输入来防止模型生成不安全的内容，而后置防护则使用视频内容分类器和面部模糊技术确保输出安全。

此外，NVIDIA 还发布了 Cosmos 和 Cosmos Tokenizer 的相关工具包，使开发者可以轻松访问预训练模型，并结合视频数据整理工具进行进一步训练。通过这一综合平台，NVIDIA 旨在为物理 AI 构建者提供强大的支持，推动机器人技术和自动驾驶领域的进步，并为更多开发者提供普及物理 AI 的机会。

知乎讨论：https://www.zhihu.com/question/8989357545/answer/73976725736

htt‍ps://mp.weixin.qq.com/s/uQxHkPeLQkiZ0y8NEF5bmg

CES2025：十大方向最火，万物皆可AI

AI技术的广泛应用：AI技术已深入消费电子和日常生活，生成式AI和大模型技术在智能家居、智能眼镜、VR设备等领域得到广泛应用。例如，联想推出的AI Travel Set智能可穿戴设备套装，用户可语音交互进行提问、拍照等操作。
人形机器人与机器狗：多家国内企业展示了人形机器人和机器狗，如灵宝CASBOT01、加速进化T1、宇树Unitree G1等，英伟达CEO黄仁勋在主题演讲中展示的人形机器人合作伙伴，近半数都是中国企业。
陪伴类机器人：陪伴类机器人成为一大亮点，如Tombot的拉布拉多小狗机器人、Metapet的AI机器宠物鼠等，外形生动可爱，具有情感陪伴功能。
智能眼镜：智能眼镜在CES展会上备受关注，国产厂商表现突出。仙瞬科技的Halliday智能眼镜采用全球最小的近眼显示模块DigiWindow，具有主动AI技术，支持实时翻译、导航等功能。
VR/MR设备：VR/MR领域的展品丰富多样，从头显到大型场景解决方案应有尽有。小派科技的Crystal Super VR头显设有沉浸式赛车、飞行模拟等游戏体验。
清洁机器人：清洁机器人领域依然是中国企业的主场。石头科技和追觅展示了搭载机械手的扫地机器人，能捡起地上的垃圾和清理边角缝隙。
智能家居：智能家居品类丰富，AI技术广泛应用。三星的智能冰箱搭载生成式AI，能监测食物并自主采购。
大屏显示技术：CES 2025上，各大厂商展示了超大屏电视和先进的显示技术。海信发布了116英寸超大屏RGB-Mini LED电视，色域覆盖达到97%。
AI PC：AI PC领域呈现出卷轴屏和小型化趋势。联想的ThinkBook Plus Gen 6卷轴屏笔记本电脑实现屏幕卷动功能。
芯片技术：芯片巨头在CES上发布了多款新品。英伟达的GeForce RTX 50系列显卡和AMD的Radeon RX 9070 XT显卡均强调AI加速和光线追踪性能。

https://mp.weixin.qq.com/s/RDYkxn5i1IuuiQabrUM5Lw

元资助

智算“万卡”潮起，国产AI芯片迎高光时刻

未来，随着AI市场的持续扩展，行业目光已转向更为宏大的“百万卡”目标。例如，博通计划在2027年部署100万个AI芯片，以推动更大规模的AI训练和部署。尽管如此，“万卡集群”仍然是当前人工智能领域的基础设施核心，标志着我国在智能算力领域迈上了新台阶。

“万卡集群”不仅是大模型竞赛的关键资源，也推动了国内AI芯片产业的快速发展。然而，尽管算力集群建设取得了显著进展，但仍面临高效管理、运营模式不成熟、资源浪费等挑战。在大规模智算中心的建设和运营中，如何确保资源的高效利用和收益回报，仍然是需要解决的核心问题。

目前，中国移动、中国联通、电信以及小米等公司都在积极扩展万卡集群。中国移动已经在哈尔滨、呼和浩特等地建设了万卡级智算中心，利用超6万张GPU卡来支持大模型训练。中国联通和阿里巴巴等也在加速部署万卡级算力中心，以满足日益增长的算力需求。此外，国产AI芯片公司，如华为昇腾、寒武纪等，获得了行业的积极支持，提供国产化芯片来支撑这些大规模算力集群的建设。

“万卡集群”指的是由超过一万张AI加速卡（如GPU、TPU等）组成的高性能计算系统，用于加速大规模人工智能模型的训练和推理。随着大模型竞赛的加剧，算力需求急剧上升，尤其是像GPT-4这样的模型，其训练需要使用成千上万的GPU。国内外许多科技巨头和运营商已开始布局万卡级算力集群，如谷歌、META和中国移动等，推动大规模智能计算基础设施的建设。

https://mp‍.weixin.qq.com/s/BiLIEr-vnmegGxvWvEUDnA

元资助

什么是Agent最先落地的B端应用？

OA及ERP构成企业核心数字化基座

在各管理软件中，OA和ERP构成了企业数据交汇的核心数字化基座。二者从人和企业自身两端入手，能够连接各业务条线，赋能企业经营全流程。

自然语言交互+学习能力提升，生成式AI不断迭代

在本轮生成式AI浪潮中，交互形式的改变和强大的学习能力构成了核心发展方向。其中，自然调度方式符合用户需求，多模态交互亦为后续模型的泛化能力提升带来了想象空间；而学习能力则体现在训练、推理及微调等多侧技术，大模型目前已经在代码、数学、AGI能力等方面实现了较高水平。

Agent赋能OA/ERP+AI落地，国内外厂商积极布局

Agent具备自主理解、感知、规划、记忆和使用工具的能力，能够自动化执行完成复杂任务，在企业办公场景中能助力OA/ERP成为企业入口级平台。当前，SAP、Oracle、Salesforce等海外企业管理软件厂商均广泛布局AI及Agent，实现业务流程自动化；国内金蝶国际、致远互联、泛微网络同样推出Agent服务，把握企业数字化转型需求。

投资建议：OA+ERP作为企业数据交汇的核心数字化基座，关注人及资源两大企业核心构成部分，与AI结合更易，预计将率先商业化。随着B端Agent进一步落地，OA+ERP有望成为新的入口级平台应用，联通各业务组件，提升用户便利度。

https://mp.weixin.qq.co‍m/s/B‍iLIEr-vnmegGxvWvEUDnA

推特

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

微软phi-4发布：基于综合的合成数据集、筛选后的公共领域网站数据以及获取的学术书籍和问答数据集构建而成

phi-4 是一个最先进的开源模型，基于综合的合成数据集、筛选后的公共领域网站数据以及获取的学术书籍和问答数据集构建而成。其目标是确保小而高效的模型能够通过专注于高质量和高级推理能力的数据进行训练。

phi-4 经历了严格的增强和对齐过程，包括监督微调和直接偏好优化，以确保对指令的精准遵循以及强大的安全措施。

https://x.com/SebastienBubeck/status/1877010995727470877

代理实验室：将大型语言模型代理用作研究助手

帮助您专注于创意和批判性思维，同时自动化处理诸如编码

https://x.com/arankomatsuzaki/status/1877195634878353680

Open Computer Use：完全开源的计算机使用代理

我们（@jamesmurdza）一直在开发一个完全开源的计算机使用代理——Open Computer Use。

该代理使用了 @e2b_dev 的 Desktop Sandbox 作为虚拟计算机。

🔗 完全开源的代码库链接如下👇

该代理集成了 3 个不同的 LLM：

🔸Llama 3.2（@AIatMeta）

🔸Llama 3.3

🔸OS-Atlas（@Alibaba_Qwen）

虽然运行速度较慢并且会犯一些错误，但这对开源 AI 社区来说是一个重要的里程碑！

从该项目的进展来看，下一代开源模型（6-12个月内？）将有可能实现完整的计算机使用功能。

https://x.com/AndrewYNg/status/1876701823840776521

在 Groq 上为 Whisper 模型分块处理较长音频文件

有成小时的音频文件需要转录吗？这篇指南就是为你准备的。

刚刚发布了一份完整的指南，包含针对 Whisper 模型的音频分块代码——再也不用担心文件大小限制，只需享受高效的转录和翻译体验，同时以 @GroqInc 的速度完成！🚀

点击这里了解详情：

https://github.com/groq/groq-api-cookbook/blob/main/tutorials/audio-chunking/audio_chunking_tutorial.ipynb

https://x.com/ozenhati/status/1876784456654110897

产品

TestSprite AI端到端代理测试工具

TestSprite 是首款专为小型和成长中的开发团队打造的 AI 端到端测试代理工具，覆盖了从前端到后端的完整测试流程。TestSprite 的强大功能包括自动生成测试用例、编写测试代码、诊断潜在问题，甚至提供修复补丁建议，让开发者能够专注于核心开发工作，而无需耗费时间处理繁琐的测试任务。

通过 TestSprite，团队可以显著提升测试效率，确保代码质量，并快速定位并解决问题，从而缩短开发周期。无论是新手团队还是经验丰富的开发者，TestSprite 都能为其提供灵活且高效的测试支持，成为推动项目成功的可靠伙伴。

https://www.testsprite.com/?ref=producthunt

Kathie AI 面试官

认识 Kathie，您的全能语音 AI 面试官！她以高度智能的方式将对话转化为高质量的内容。无论您想要讨论商业计划、记录生活回忆，还是撰写引人注目的社交媒体帖子或博客文章，只需选择一个主题和内容格式，Kathie 就能为您完成其余工作。通过实时语音交互，Kathie 会提出有针对性的问题，挖掘您的核心想法，并将其精准地表达为所需的内容。她的强大之处在于能够适应不同场景和风格——从轻松的个人分享到正式的商业文档，甚至创作富有情感的回忆录。让 Kathie 成为您的创作助理，轻松实现从灵感到成品的转化，不再为内容创作而烦恼！

https://www.yourinterviewer.com/?ref=producthunt

投融资

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

中科加禾完成数千万元Pre-A1轮融资

中科加禾近期完成了数千万元的Pre-A1轮融资，由北京市人工智能产业投资基金领投，指数资本担任财务顾问。中科加禾成立于2023年，专注于AI异构算力软件，致力于通过编译技术推动国产算力和大模型的应用落地，并为人工智能产业提供通用化、低成本、高性能的基础软件工具链。自成立以来，公司已连续获得三轮融资，引入了包括BV百度风投、晨山资本、元禾原点等在内的多个顶级投资机构。

中科加禾与传统AI算力基础设施公司不同，专注于为国产硬件生态提供软件解决方案，致力于构建屏蔽底层硬件差异的高性能中间层软件体系。公司已经推出了多款创新产品，包括异构原生推理引擎“SigInfer”、微调引擎“SigFT”、以及算子自动生成/转译工具“SigTrans”，这些产品支持多种国产和海外AI芯片，并显著提升了大模型推理性能和能效比。

公司通过产品的卓越性能和强通用性，已与多家智算中心、芯片厂商、服务器厂商、运营商及互联网大厂达成合作，打通了产业链中的壁垒，推动了国产异构算力的大规模应用和AI生态的发展。同时，中科加禾已获得数千万元的商业订单，客户包括国内头部芯片和服务器厂商等。

北京市人工智能产业投资基金对中科加禾表示高度认可，认为公司在AI基础设施软件领域具有重要价值，能够有效解决国产算力及大模型应用落地的“卡脖子”问题。基金方特别强调，中科加禾团队拥有超过20年的编译器开发经验，具备稀缺的技术能力和深厚的技术积累，预期公司将在AI异构算力领域取得更多关键创新突破，加速国产AI产业链的规模化应用。

公司官网：https://www.xcoresigma.com/