我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告：ResearchFlow — 奇绩F23校友的开发的深度研究产品，PC端进入RFlow的分析报告，可直接点击节点右侧的小数字展开节点，登录后可在节点上直接“询问AI”，进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

黄仁勋开年首场采访：点名夸奖中国车企，回应5090为什么贵，大谈物理AI

在CES开幕演讲后，英伟达创始人黄仁勋接受了媒体采访，详细阐述了公司的发展方向和最新技术。黄仁勋对中国车企如理想、小鹏和蔚来的智能驾驶技术表示肯定，认为它们对行业的影响可能超越特斯拉。他还回应了RTX 5090的定价问题，表示该产品主要面向极致发烧友，而入门级产品则以较低显存平衡算力需求。对于AI PC的需求，黄仁勋指出设计师和开发者等群体需要强大的计算能力，英伟达将通过WSL2平台将云端AI技术引入PC。

在技术方面，黄仁勋强调了物理AI的趋势，指出目前我们缺乏一个理解物理世界的基础模型。英伟达的Cosmos项目旨在通过建立这样的模型，推动机器人和智能驾驶的落地。此外，黄仁勋提到未来三大Scaling Law将共存，推动算力的提升、测试时计算的改进以及推理过程中的数据反馈，进一步降低AI推理成本。

黄仁勋还谈到了DLSS 4技术，强调帧生成并非简单的插值，而是通过预测未来提升渲染效率。在显卡方面，RTX 5090与5080之间存在显著差异，满足了不同需求的极致玩家。对于5070系列，英伟达强调显存与算力的平衡，以应对高分辨率游戏的需求。

对于企业客户，黄仁勋表示英伟达专注于为行业提供基础技术平台，而非直接竞争于计算层和库层。公司通过NeMo和NIMs等工具支持企业开发AI应用。最后，他介绍了Digits系统，这是面向数据科学家的AI训练平台，能够以更低的成本为开发者提供强大的计算支持，推动非游戏PC市场的发展。

htt‍ps://mp.weixin.qq.com/s/uQxHkPeLQkiZ0y8NEF5bmg

AWS宣布将在乔治亚州投资至少110亿美元扩展数据中心基础设施

2025年1月7日，亚马逊云计算部门AWS宣布，计划在乔治亚州投资至少110亿美元，扩展其数据中心基础设施，以支持云计算和人工智能技术的发展。AWS预计这一投资将为当地创造约550个就业岗位。

此次投资表明AWS致力于推动下一代尖端技术的发展，特别是在人工智能领域。该公司在新闻发布中表示，感谢州政府和地方领导的合作，期待让乔治亚州在数字时代继续保持领先地位。

这笔投资距AWS去年在印第安纳州宣布类似的110亿美元数据中心投资不到八个月，该计划预计将创造至少1000个工作岗位。乔治亚州近年来成为数据中心建设的热土，尤其是亚特兰大市场的数据中心建设增长迅猛。亚特兰大的电力成本低、现有的光纤基础设施以及州政府的税收激励措施吸引了众多大科技公司投资，包括谷歌、Meta、马斯克的X和微软等。

然而，数据中心建设也引发了当地居民的关注，他们认为这些项目与住房和其他更紧迫的房地产需求相冲突。亚特兰大市议会曾在去年9月禁止在靠近交通枢纽和热门步道的区域新建数据中心。此外，数据中心对电力的需求也非常高，尽管乔治亚电力公司部分依赖化石燃料以满足需求，但环保组织对此提出了批评。

预计到2028年，亚特兰大地区的数据中心电力需求将达到4000兆瓦，是2012年数据中心电力需求的30倍以上。人工智能的迅猛发展是推动数据中心扩张的主要因素之一，预计到2028年，AI将占据数据中心电力需求的19%。

此外，微软最近表示，计划今年投入80亿美元用于AI数据中心的建设，而根据麦肯锡的报告，未来五年，数据中心机械和电气系统的采购和安装资本支出可能超过2500亿美元。

https://techcrunch.com/2025/01/07/aws-says-itll-invest-at-least-11b-to-expand-data-center-infrastructure-in-georgia/

元资助

智源研究院发布2025十大AI技术趋势

2025年，智源人工智能研究院发布了十大AI技术趋势预测，涵盖基础设施、产品应用、安全等多个关键领域。首先，AI for Science（AI4S）将成为推动科学研究范式变革的重要力量，预计多模态大模型将在生物医学、气象、材料科学等领域赋能科研，开辟新方向。其次，具身智能领域进入“元年”，具身智能将在技术、行业和商业应用上迎来突破，工业场景将更多应用人形机器人。第三，统一的多模态大模型将实现更高效的AI，突破传统语言和图像模型的局限，推动多模态技术向端到端发展。Scaling Law的进一步扩展将优化大模型训练，强化学习（RL）结合大语言模型（LLM）提升模型泛化能力。与此同时，注重因果推理的世界模型将加速发展，推动自动驾驶、机器人控制等领域的应用。合成数据的使用将成为大模型迭代的催化剂，通过降低数据治理成本和提高多样性，推动模型应用的落地。

此外，推理优化和硬件加速将成为大模型在资源受限设备上落地的关键。AI Native应用的落地需要更强的推理优化技术，尤其是在手机、PC等端侧硬件上。随着Agentic AI的崛起，更通用、更自主的智能体将在2025年重塑产品形态，推动AI的广泛应用。超级应用（Super App）的竞争正在升温，AI技术的不断发展为其落地奠定基础，尽管谁将成为主导者尚未明确。最后，随着大模型能力的提升，AI安全和治理体系的完善变得尤为重要，如何有效规避风险、平衡发展与管控，成为AI发展的关键问题。

https://mp.weixin.qq.com/s/BiLIEr-vnmegGxvWvEUDnA

元资助

前微软亚研院视觉专家胡瀚加入腾讯，负责混元多模态大模型

胡瀚，前微软亚洲研究院视觉计算组的首席研究员，最近加入腾讯，接替刘威负责多模态大模型的研发工作。胡瀚在学术和业界都有显著成就，2008年从清华大学本科毕业，2014年获得该校博士学位，曾获中国人工智能学会优秀博士论文奖。他还曾在宾夕法尼亚大学GRASP实验室进行访问研究，并加入百度深度学习研究所，后成为微软亚洲研究院视觉计算组的一员。胡瀚是计算机视觉领域的重要人物，尤其以参与《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》的研究而闻名，该论文提出的Swin Transformer被广泛应用并替代了传统CNN架构，成为计算机视觉领域的通用backbone，并荣获2021年ICCV最佳论文奖。

在加入腾讯之前，胡瀚在微软亚洲研究院领导了多个关键研究项目，推动了Swin Transformer及其后续版本Swin Transformer v2.0的诞生，后者刷新了多个视觉任务的记录。胡瀚的团队也包括其他知名学者和研究人员，如曹越、林宇桐等，均在视觉计算领域有深厚的影响力。

胡瀚的加入标志着腾讯在多模态大模型领域的进一步推进。此前，刘威负责腾讯的混元大模型研发工作，但他已于11月离开腾讯。刘威在学术上也有卓越贡献，并曾获得多项奖项，包括2014年CVPR青年研究者奖及IEEE Fellow等。刘威主要致力于大规模机器学习、多模态理解和生成任务，推动了腾讯产品的多模态应用，尤其是在文生图、文生视频等领域的突破。腾讯混元大模型在这一领域不断进展，12月推出了支持中英文输入的文生视频能力，成为混元系列大模型的重要补充。

https://mp.weixin.qq.com/s/B‍iLIEr-vnmegGxvWvEUDnA

推特

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

NVIDIA Cosmos：一款开源、开放权重的视频世界模型

隆重推出 NVIDIA Cosmos，一款开源、开放权重的视频世界模型。它基于 2000 万小时的视频数据训练，模型规模从 40 亿到 140 亿参数不等。Cosmos 提供两种模型类型：扩散模型（连续 tokens）和自回归模型（离散 tokens）；支持两种生成模式：文本 -> 视频和文本+视频 -> 视频。

物理 AI 面临大数据难题，而合成数据是解决之道！我们将 Cosmos 应用于机器人和自动驾驶的大规模合成数据生成，现在您也可以使用它！它完全开放供您微调。

查看详情：https://github.com/NVIDIA/Cosmos

https://x.com/DrJimFan/status/1876516972512559170

Huyen分享长文：关于智能体的笔记

我的 8000 字长文关于智能体的笔记已发布：https://huyenchip.com//2025/01/07/agents.html

主要内容包括：

智能体概述
AI 驱动的智能体能力如何由其可访问的工具集合和规划能力决定
如何为您的智能体选择最佳工具集合
LLMs 是否能够进行规划，以及如何增强模型的规划能力
智能体的失败模式

AI 驱动的智能体是一个新兴领域，目前尚无成熟的理论框架用于定义、开发和评估它们。这篇文章是基于现有文献的最大努力尝试，以建立一个框架，未来会随着领域发展不断演变。

一如既往，欢迎提出宝贵意见！

https://x.com/chipro/status/1876681640505901266

六位领军人物分享对来年 AI 的期望

AI 的未来将走向何方？六位领军人物在《The Batch》中分享了他们对来年 AI 的期望：

• Hanno Basse: 为艺术家服务的生成式 AI

• David Ding: 带有音乐、音效和对话的生成视频

• Joseph Gonzalez: 通用智能

• Albert Gu: 更高效的学习，更少的数据需求

• Mustafa Suleyman: 行动型智能体

• Audrey Tang: 团结我们的 AI

感谢 @BasseHanno, @DavidDingAI, @profjoeyg, @_albertgu, @mustafasuleyman, 和 @audreyt 的精彩撰稿！

点击阅读：https://deeplearning.ai/the-batch/issue-282/

https://x.com/AndrewYNg/status/1876701823840776521

LlamaCoder v2：只需 1 条提示即可生成 React 应用

很高兴分享我在 UC Berkeley 开设的课程 “Robots that Learn” 的课程资料，该课程由

Toru 的出色协助共同教授。

课程视频：YouTube 播放列表

课程笔记及其他资料：课程官网

https://x.com/JitendraMalikCV/status/1876072144020644198

产品

Wegic 全能的 AI 驱动网站解决方案

Wegic 是一个全能的 AI 驱动网站解决方案，充当您的专属设计师、开发人员和项目经理，为您提供一站式服务。通过直观的聊天界面，您只需输入需求，Wegic 就会迅速生成高质量的网站设计，并负责整个开发和部署过程。无论是布局调整、功能更新还是内容优化，Wegic 都能实时响应，为您提供轻松便捷的管理体验。凭借其智能化、高效性和用户友好的操作方式，Wegic 为个人和企业简化了网站建设和维护的复杂流程，让您专注于业务增长，而无需掌握任何技术技能。

https://wegic.ai

Sonauto v2 AI 音乐生成模型

Sonauto v2 是我们最新推出的 AI 音乐生成模型，完全免费，为用户创造音乐提供了无限可能。无论是文字提示、歌词还是简单的旋律片段，Sonauto 都可以在几秒钟内将其转化为任何风格的完整歌曲。从古典音乐到流行金曲，甚至是定制化的特殊风格，这款工具都能轻松胜任。想为朋友制作一首原创的生日歌？只需输入想要的歌词和风格，比如模仿 Frank Sinatra 的经典风格，Sonauto 就能迅速生成高质量的作品。凭借其卓越的生成能力和简单易用的界面，Sonauto v2 成为音乐创作的得力助手，无论是专业音乐人还是普通用户，都能在这里释放创意，谱写属于自己的旋律。

https://sonauto.ai

投融资

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

Anthropic计划融资20亿美元，估值600亿美元，Lightspeed领投

2025年1月7日，TechCrunch报道称，人工智能公司Anthropic正在与投资方洽谈，计划通过一轮融资筹集20亿美元，并预计此次融资将使公司估值达到600亿美元。据《华尔街日报》报道，参与此轮融资的领投方为Lightspeed Venture Partners。如果这笔资金顺利到位，Anthropic的融资总额将增至157亿美元，成为继SpaceX、OpenAI、Stripe和Databricks之后，第五大最有价值的美国初创公司。

AI行业面临技术开发和扩展所需的大量资金，许多公司都在积极筹集资金。例如，OpenAI在2024年10月完成了66亿美元的融资，而Elon Musk的AI公司xAI则在11月筹集了60亿美元。

此外，Anthropic在2024年11月从亚马逊获得了40亿美元的投资，并与亚马逊达成协议，选择亚马逊云服务（AWS）作为其主要的AI模型训练合作伙伴，并帮助优化亚马逊的AI加速器芯片。