我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告：ResearchFlow — 奇绩F23校友的开发的深度研究产品，PC端进入RFlow的分析报告，可直接点击节点右侧的小数字展开节点，登录后可在节点上直接“询问AI”，进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

叶添：揭秘大语言模型推理机制——超越人类的二级推理

奇绩潜空间活动报名

【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区，潜空间定期邀请大模型前沿创业者分享产品实践探索，邀请前沿科研学者分享最新技术进展。

第五季第二期潜空间邀请到的嘉宾是清华大学姚班，卡内基梅隆大学博士生，Physics of LLM 2.1作者，于 Meta 担任 Research Scientist Intern的叶添，在本次活动中叶添将在北京现场与大家面对面交流，他分享的主题是《揭秘大语言模型推理机制——超越人类的二级推理》。

大模型日报（1月3日资讯篇）

资讯

Nvidia CES 2025 预告

Nvidia将在2025年消费电子展（CES）上亮相，预计将成为此次展会的最大亮点。作为全球市值超过3.4万亿美元的芯片巨头，Nvidia目前在AI领域占据着举足轻重的地位，成为OpenAI和Meta等公司采购的重要合作伙伴，这一趋势在新的一年里预计将持续。

Nvidia的创始人兼首席执行官黄仁勋将于1月6日晚上6:30（PT）/ 9:30（ET）开启本次CES主题演讲，届时他将穿着标志性的皮夹克，以其独特的远见和创意展现Nvidia的最新动态。此次演讲将在YouTube和Nvidia官网进行直播。

此次演讲中，Nvidia预计将推出一系列重大新闻，其中最引人注目的是RTX 5000系列显卡的发布，这一产品有望成为展会的最大亮点。此外，黄仁勋还将探讨涉及Nvidia硅芯片的多个领域，如人工智能、机器人技术以及汽车等行业的未来发展。

此次演讲对于Nvidia来说意义重大，既是展示其技术创新的舞台，也是与竞争对手AMD在CES上的直接较量。

https://techcrunch.com/2025/01/02/nvidias-ces-2025-keynote-how-to-watch/

DeepMind两万引科学家离世，万字绝笔谈在AI行业工作的压力

DeepMind的科学家Felix Hill不幸去世，享年38岁。他是NLP领域的重要人物，参与了GLUE和SuperGLUE基准的开发。2016年加入DeepMind以来，他一直致力于人工智能的研究，直到去世前几个月，他发表了关于AI工作压力的文章《2000亿权重的责任》。文章分享了他因家人去世和职业压力所引发的精神健康问题，以及他如何在长达六个月的抑郁症中逐步恢复，并希望通过个人经历帮助其他遭遇困境的人。

Hill的去世引发了广泛的悼念，许多同行感叹这一消息令人痛心。他的好友、纽约大学教授Kyunghyun Cho透露，Hill的去世让他难以相信并深感悲痛。

Felix Hill并非一开始便进入AI领域。他在2006年从牛津大学数学专业毕业后曾担任数学教师，并参与过非盈利组织和教育创业。2016年，他在剑桥大学获得计算语言学博士学位，并开始在DeepMind工作。Hill在学术研究之外，也常从语言学角度分析AI，尤其是Transformer模型的归纳偏置作用。他的学术观点对当时的AI研究产生了影响，特别是在局部依赖和长距离依赖的探讨上。

Hill的《2000亿权重的责任》文章讨论了AI领域研究人员面临的巨大压力。在过去两年，AI行业的迅速发展带来了前所未有的公众关注和压力。Hill提到，尽管AI的成功带来了丰厚的薪资和股市回报，但这种压力也导致了不少从业者的焦虑、抑郁和精神健康问题。他自己经历了母亲去世和急性精神病的困扰，并且在深度抑郁中挣扎了半年。Hill强调，AI领域的工作不仅对个人心理健康造成影响，且由于行业的快速发展，许多研究人员不得不面对巨大的职场压力，包括对公司业绩的直接影响以及在竞争激烈的环境中发表研究的困境。

他认为，虽然这些压力难以避免，但通过建立支持系统，分享个人经历，AI研究者可以逐步克服这些困难，并希望能为行业带来更多同情和理解。Felix Hill的去世不仅是AI研究界的损失，也提醒人们关注职业压力对心理健康的影响。

https://mp.w‍eixin.qq.‍com/s/3lK9u-YtZQEzc7Dyi_Inkw

元资助

GenDP：3D动态语义对Diffusion Policy泛化性的提升

Diffusion Policy（DP）是一种模仿学习策略，近年来在机器人动作生成任务中表现出色，但它存在一定的泛化能力问题。为了提升这一点，GenDP提出了一种基于3D语义信息增强DP泛化性的方案。该方案结合了3D语义场（如D3Fields）和Diffusion Policy，通过显式的空间和语义表征，使得机器人能够在面对未见过的物体时，仍能表现出较强的迁移能力。

GenDP的创新在于利用D3Fields提供的高效3D和语义表征。与传统的2D表征不同，3D语义场能让机器人在处理不同物体时，不仅依赖几何形状，还能利用物体的语义信息进行更智能的决策。例如，机器人能够区分物体的不同部分（如刀刃和刀把），从而避免错误操作。通过结合3D点云数据和语义信息，GenDP在未见物体上的表现显著提高，相似物体之间能够共享经验，从而增强模型的泛化能力。

GenDP还借助DINOv2模型，自动从图像中提取语义信息，并通过简单的标注加速这一过程。D3Fields的核心优势在于无需额外训练，且不依赖于密集的摄像头布局，能够高效地生成3D环境表征，进而支持如零样本重排等任务。这使得GenDP能够广泛应用于动态和复杂环境中的机器人操作。

此外，GenDP还探索了另一条路径——Learned Dynamics+MPC。与传统的模仿学习和强化学习不同，这种方法通过学习一个动态模型（dynamics model）来预测物体和环境的未来状态，再结合模型预测与MPC（Model Predictive Control）进行任务规划。这一方法通过直接预测动作的未来结果，提供了比传统模仿学习更高的可解释性与灵活性，尤其适用于复杂、非线性的操作任务。

空间智能是这些研究的核心，涉及3D、语义和动态理解。通过对环境的3D建模、物体的语义识别以及动态变化的预测，机器人能够在复杂的现实世界中实现高效的操作。D3Fields和GenDP的成功展示了如何通过这些技术提升机器人在现实环境中的适应能力和任务执行精度。

总的来说，GenDP通过结合3D语义场和Diffusion Policy，显著提升了机器人在复杂环境中的泛化能力，而Learned Dynamics+MPC则提供了更为灵活、可解释的任务规划方法。两者的结合为机器人操作提供了新的方向，也推动了机器人智能的进一步发展。

http‍s://mp.w‍‍e‍ix‍in.qq.com/s/sf_Pfu7LSSQGLNUq2HDX8g

元资助

小米集团深度报告：AI全生态构筑核心壁垒，电动汽车打造新成长曲线

■“人车家全生态”闭环，核心业务稳健增长。小米是一家以智能手机、智能硬件和IoT平台为核心的消费电子及智能制造公司，2010年正式成立，2010年推出MIUI，2011年小米手机发布，2013年红米手机发布并开始布局IoT，2018年在香港证券交易所挂牌上市。2023年10月，公司宣布全新战略升级，从“手机×AIoT”升级到“人车家全生态”。2024年3月，小米汽车首款车型小米SU7正式发布，公司“人车家全生态”战略正式闭环。随着业务扩张，公司营收规模从2015年的668.11亿增长至2023年的2709.70亿，CAGR达19.13%。

■需求端：AI全生态构筑核心壁垒，汽车打造新成长曲线。今年端侧AI迎来一系列实质性进展：苹果、华为、荣耀纷纷发布人工智能系统，AI智能体已实现按需完成复杂任务，公司也在10月的新品发布会上正式发布AI性能强大的小米15系列手机及基于AI大模型重构的澎湃OS 2.0系统。我们认为，公司传统核心业务有望持续受益AI全生态：1）消费者对AI功能的兴趣日益浓厚，叠加端侧大模型带来性能压力，公司或将受益端侧AI落地驱动的全球新一轮换机潮；2）建立在庞大用户基础上的AI生态或可激发增值服务成长新动能；3）全生态AI智能助手“超级小爱”拥有自动化全设备场景管理能力，可大幅提升用户生活便利，是公司未来打造全场景AIoT体验的关键一环，或将持续推动IoT板块实现增长。汽车业务方面，公司推出首款车型SU7即获得巨大成功，领先的电动化、智能化技术及精致的外观造型深受消费者青睐，预计11月提前完成十万交付。

■供给端：汽车具有差异化优势，门店扩张深挖渠道护城河。汽车业务方面，比较小米SU7和友商同类型电动汽车的参数数据，我们发现同价位车型中小米SU7在续航里程、最大功率、电动机总功率、0百加速、最高车速等方面均具备领先优势。手机业务方面，DRAM指数和NAND指数自今年5月以来均有所回落，我们认为存储价格大幅上涨对公司冲击最大的时候已过，后续存储价格继续回落则有望修复部分毛利率。营销渠道方面，公司也在加速小米之家及小米汽车线下门店布局打造护城河。

■投资建议：汽车业务方面，比较小米SU7和友商同类型电动汽车的参数数据，我们发现同价位车型中小米SU7在续航里程、最大功率、电动机总功率、0百加速、最高车速等方面均具备领先优势。手机业务方面，DRAM指数和NAND指数自今年5月以来均有所回落，我们认为存储价格大幅上涨对公司冲击最大的时候已过，后续存储价格继续回落则有望修复部分毛利率。营销渠道方面，公司也在加速小米之家及小米汽车线下门店布局打造护城河

http‍s://mp.w‍‍e‍ix‍in.qq.com/s/sf_Pfu7LSSQGLNUq2HDX8g

元资助

Sergey Levine ：机器人基础模型将取代其他通用基础模型丨DAI 2024

在第六届国际分布式人工智能会议（DAI 2024）上，关于具身智能和大模型的讨论引起了热烈反响，尤其是在机器人领域，通用性模型的潜力逐渐显现。UC Berkeley的Sergey Levine教授在演讲中展示了一个33亿参数的通用机器人基础模型，涵盖视觉、语言和动作三方面。该模型通过10,000小时的预训练数据和任务微调，实现了从简单物体操作到复杂任务（如叠衣服、组装盒子）的泛化能力，成功率在多数任务中达到50%-100%。

Levine教授强调，通过多步推理提高机器人控制策略的泛化性，尤其在具有挑战性的任务中，能够使得模型成功率提高28%。此外，他介绍了RLDG（Reinforcement Learning Distilled Generalist）方法，通过强化学习生成高质量数据来微调通用机器人模型，相比传统的人工示范训练，能够显著提升性能和泛化能力。

在过去，机器人通常需要为每个特定任务收集专门的数据集进行训练，而当前的趋势则是通过通用模型，结合来自不同机器人和场景的数据，创建一个可微调的基础模型。这种方法能够让模型通过更少的任务特定数据，快速适应多种任务，类似于自然语言处理和计算机视觉领域的进展，体现出通用模型的优势。

通过收集来自34个不同实验室的多类型机器人数据，Levine团队尝试训练一个通用模型。结果显示，通用模型的成功率比专门为某个任务开发的领域特定方法高出50%。这种通用性在机器人领域的应用表明，通用机器人基础模型可以克服数据不足的问题，实现更强的泛化能力。

同时，Levine教授提出，通过使用像RT2这样的视觉语言模型，结合机器人控制数据，机器人能够更好地理解和执行任务。这种跨领域的训练方法显著提高了机器人在多平台和任务中的表现。

然而，虽然这些基础模型在许多任务上表现优异，但对于复杂任务仍有改进空间，尤其是在灵巧任务（如叠衣服）的执行上，仍需要进一步的微调和强化学习来提高任务执行的效率和精度。

http‍s://mp.w‍‍e‍ix‍in.qq.com/s/sf_Pfu7LSSQGLNUq2HDX

推特

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

Zoodotdev分享 text-to-CAD

设计一个矩形安装板，其规格如下：

• 长度为 10 英寸，宽度为 6 英寸。

• 在靠近四个角的地方钻四个直径为 0.25 英寸的小孔。

• 每个角的圆角半径为 0.125 英寸。

• 在中心位置钻一个直径为 4 英寸的大孔。

https://x.com/j_d_noone/status/1874571809716384069

Abbott分享：DeepSeek-V3结构图示

DeepSeek-V3，结构图示。

https://x.com/vtabbott_/status/1874449446056177717

Copilot支持自定义指令：自然语言告诉 Copilot 你想要的操作方式

我想要这样的方式 🎶

自定义指令让你可以用自然语言告诉 Copilot 你想要的操作方式。

今天起，所有人都可以使用 GitHub Copilot Free！了解更多：http://aka.ms/copilot-free

https://x.com/code/status/1874879336680944025

Bolt DIY 一键启动器：一键安装并在本地计算机上运行 BOLT DIY

Bolt DIY 一键启动器

一键安装并在本地计算机上运行 BOLT DIY。这是由 @stackblitz 提供的官方开源项目（此前 Pinokio 有一个非官方的启动器）。

新增支持的 LLM 提供商：

• @huggingface

• @togethercompute

• @cohere

• @xai

• @perplexity_ai

• @lmstudio

https://x.com/cocktailpeanut/status/1874851027939201483

强力机器人：结合了人类灵活性和强大力量的机器，可以举起半吨重的物体

强力机器人！🏋🏼

想象一台结合了人类灵活性和强大力量的机器，可以举起半吨重的物体。

Guardian GT 是由 @PalladyneAI 开发的一款远程操控机器人，配备双臂，每只臂长达七英尺，能够举起最多 1,000 磅的重量。🪨

每只机械臂具有七个自由度（7 DoFs），使 Guardian 能够精确操作各种物体，从处理精细工具到搬运重型材料都游刃有余。

操作员可以通过实时力反馈系统控制复杂任务，确保操作精确。该机器人可安装在移动平台上，适应各种地形的导航需求。

又一个以人为核心的远程操作机器人精彩案例！

https://x.com/lukas_m_ziegler/status/1874755601906958811

产品

UniDeck 功能强大且灵活的工具

UniDeck 是一款功能强大且灵活的工具，专为个人和企业打造个性化仪表板与门户而设计。它将数据与工作流程无缝整合，提供直观、高效的用户体验，帮助用户轻松管理和优化工作流程。以下是 UniDeck 的核心功能：

🌐 连接常用工具：与 Jira、Google、Microsoft Teams、Trello 和 GitHub 等主流工具深度集成，实现数据和任务的统一管理。
🤖 AI 智能支持：通过人工智能轻松设计个性化仪表板，快速生成符合需求的布局，同时实现工作流的自动化，节省时间与精力。
🎨 高度定制化：支持用户根据业务需求自由调整组件、布局和主题，为个人或团队创建专属的工作界面。
📊 实时数据同步：无论是任务进度、数据分析还是项目协作，UniDeck 都能以实时方式提供最新信息，助力高效决策。

无论是个人用户还是企业团队，UniDeck 都是一个理想的解决方案，帮助用户将多种工具集中在一个平台上，提升工作效率，简化复杂流程，让管理和协作变得前所未有的简单而高效。

https://unideck.app

Iconfinder 矢量图标搜索引擎和市场

Iconfinder 是全球领先的矢量图标搜索引擎和市场，专注于提供高质量的图标资源，支持多种格式，包括 SVG、PNG、CSH 和 AI 格式。无论是个人设计师还是大型团队，Iconfinder 都是寻找设计资源的理想平台，具备以下特点：

🔍 强大的搜索功能：通过智能搜索快速找到所需图标，支持按风格、主题和颜色筛选，满足各种设计需求。
🎨 多样化的图标库：拥有数百万个图标，涵盖商业、科技、教育等多个领域，从简约风格到复杂设计，应有尽有。
📂 灵活的格式支持：图标提供多种文件格式下载，适用于网页设计、应用开发、印刷媒体等多种场景。
🌟 订阅与个性化服务：提供灵活的订阅计划，支持按需购买或下载，同时支持为用户定制专属图标。
🤝 设计师市场：为全球设计师提供展示和出售作品的平台，助力创作者实现价值变现，同时为用户提供更多原创资源。

无论是创建网站、应用界面还是品牌设计，Iconfinder 都能以便捷的方式为用户提供高质量的图标资源，成为设计工作中的重要助力。

https://unideck.app

投融资

「师者AI」完成百度战投投资，加快AI在个性化教育的探索落地

师者AI（北京一平方科技有限公司）近日宣布完成新一轮战略融资，百度战投为投资方。师者AI致力于开发全学科教育大模型，通过创新的技术框架，帮助用户全方位理解知识，涵盖数学、物理、计算机等多个学科。其AI系统可以根据用户的过往能力，提供个性化的解答、推荐和剖析等服务，极大地提升学习效率。

师者AI的基础大模型已于2024年10月通过中央网信办的生成式人工智能服务备案，表明其将遵循国家网信办的管理规定，提供合规的教育类AI服务。该团队成员来自清华大学及多个国际知名高校，具有强大的技术背景。公司曾获得国家高新技术企业称号及科技型中小企业的认可，并获得风和资本与奇绩创坛的投资。

创始人兼CEO刘春江表示，教育行业长期追求个性化服务，但由于师资和经验限制，难以实现大规模普及。借助AI技术，师者AI显著降低了教师的工作负担，并提升了教育效率，带来更加高效的服务体验。他感谢百度及老股东的支持，并表示公司将不断迭代产品，为用户提供更优质的体验。

https://mp.weixin.qq.com/s/us9Ydi7MOqvoFFzM0Ykp_Q

元始智能完成数千万级天使轮融资

深圳元始智能有限公司（元始智能）近日宣布已完成数千万人民币天使轮融资，本轮由天际资本领投，进一步增强了其在人工智能领域的技术实力与市场竞争力。成立于2023年6月，元始智能专注于大模型架构与AI应用的研发，特别是RWKV技术的推进与应用。此次融资将用于加速RWKV架构的发展，拓展更多C端AI应用，并推动生态系统建设和行业合作。

元始智能自成立以来，迅速吸引了资本市场的关注。2024年1月，元始智能完成了由奇绩创坛领投的种子轮融资，表现出强劲的技术创新和市场潜力。本轮融资将进一步加大对RWKV架构的研发投入，提升模型的性能、效率与稳定性，并推动其在移动端和物联网等资源受限场景的高效应用。同时，元始智能计划扩展RWKV的多模态应用场景，优化产品设计，改善用户体验。

元始智能最新推出的RWKV-7架构，采用动态状态演化机制，超越传统attention机制，具备强大的上下文学习能力和自我优化功能。这一技术可实现边推理边学习，显著提升模型的适应性和效率。RWKV-7还特别强大于长文本处理，能够应对复杂的文本任务，表现出卓越的长文本处理能力。

RWKV技术已获得业界的广泛认可，并逐步形成开放的生态系统。2024年9月，微软Windows系统更新中内置了RWKV的运行库，标志着RWKV技术已在全球范围的数亿台设备上部署，进一步验证了其在端侧部署和低功耗应用中的优势。此外，RWKV也吸引了阿里巴巴、腾讯、地平线等企业的参与，推动多模态信息处理和具身智能等前沿技术的研究。

元始智能致力于将RWKV架构应用于更广泛的场景，并通过合作与开源社区推动技术发展。天际资本作为投资方，其在智能时代和高科技领域的投资经验将为元始智能提供重要的资本与战略支持，助力其技术和生态的进一步发展。

公司官网：https://www.rwkv.com/