我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

科学实验室走向全自动化，机器人融合AI，加速科学发现

北卡罗来纳大学教堂山分校的研究人员在《Science Robotics》发表文章，探讨了科学实验室的全面自动化转型。自动化机器人与 AI 的结合正逐步将实验室打造成自动化发现工厂，显著提升实验的速度、精度和安全性。研究团队定义了五个自动化级别，从辅助自动化 (A1) 到完全自动化 (A5)，涵盖了从单任务自动化到无需人工干预的全自主操作。在完全自动化阶段，机器人和 AI 系统能自主管理实验及设备维护，实现自我调整和安全管理。

此外，团队提出了五个实验室通用性级别（G1-G5），以支持从单一到多领域的科学实验流程，最终目标是建立广泛适应不同实验需求的通用实验室 (G5)。例如，物理自动化达到 A5 的 G5 实验室是自动化的巅峰，能够支持多领域实验并实现高度灵活的工作流程。

AI 在推动实验室自动化中发挥关键作用，能够从实验数据中识别模式、提出新化合物或研究方向，从而完全自动化传统的“设计-制造-测试-分析” (DMTA) 循环。这种整合将显著缩短研究周期，自动化实验设计、材料合成及结果分析。尽管 AI 在化学反应预测和优化方面取得早期成功，研究人员强调需严控其风险，以防产生危险材料。

全面自动化实验室的实现面临技术与后勤挑战，包括适应不同实验环境的灵活系统开发和跨站点运输能力。科学家需要学习机器人和 AI 技术，科学、工程、计算机科学的跨学科合作将加速这一转型，实现快速、安全、可靠的科学突破环境。

https://mp.weixin.qq.com/s/‍yEC32W-dobHF7pycDSHcPg

极佳科技提出DriveDreamer4D

极佳科技联合中国科学院自动化研究所、理想汽车等单位提出DriveDreamer4D，是首个利用世界模型提升4D驾驶场景重建质量的项目。作为增强自动驾驶4D重建的开创性工作，DriveDreamer4D通过闭环仿真技术，提供了动态驾驶场景（如变道、加速和减速）的丰富视角。现有的传感器仿真方法（如NeRF与3DGS）在数据不足的情况下难以精确重建复杂驾驶操作，而DriveDreamer4D则利用世界模型合成真实驾驶数据，解决了此问题。

DriveDreamer4D的结构设计包含轨迹生成模块（NTGM），用于调整原始轨迹并生成新视角视频，以提高车辆3D框和车道线细节的清晰度。利用新轨迹数据，DriveDreamer4D通过控制条件生成视频，并将其与原始视频结合优化4DGS模型。实验表明，与传统算法（PVG、S3Gaussian、Deformable-GS）相比，DriveDreamer4D显著改善了车道线、车辆等元素的渲染质量，消除了“鬼影”并增强了时空一致性。在user study中，DriveDreamer4D获得超80%用户偏好投票。

DriveDreamer4D的开发是极佳科技DriveDreamer系列工作的延续，继DriveDreamer和DriveDreamer-2之后进一步提升了闭环仿真能力，为端到端自动驾驶和4D空间智能带来重要进展。DriveDreamer-2已引入大语言模型生成特定驾驶数据以优化长尾场景。DriveDreamer4D则在此基础上提升4D重建算法，推动了自动驾驶的精细化场景模拟。

DriveDreamer4D的实现标志着极佳科技在通用空间智能和4D世界模型方向的领先地位，为影视、元宇宙等虚拟空间内容创作以及物理空间的自动驾驶和具身智能应用奠定了基础。

https://mp.w‍eixin.qq.com/s/Jmdcb1yCHlVdfo-mTx‍Ohvg

Meta开源平替AI播客

上月，谷歌对其 AI 笔记应用 NotebookLM 进行了重大更新，新增支持对 YouTube 视频和音频内容的摘要生成功能，甚至可以创建 AI 生成的音频讨论。NotebookLM 通过整合谷歌文档、PDF、网页等多种数据源，扩展了其自动生成和内容共享的场景。AI 专家 Karpathy 利用 NotebookLM 迅速创建了10集博客系列“历史谜团”，通过该应用自动链接维基百科条目、生成播客视频、并编写剧集描述，展现了该工具在内容制作中的强大潜力。

近日，Meta 推出开源替代方案 NotebookLlama。该工具基于 Llama 系列模型，包括 Llama-3.2-1B-Instruct、Llama-3.1-70B-Instruct 和 Llama-3.1-8B-Instruct，支持从文本生成到播客内容的全过程。其主要流程为从新闻或博客生成转录文本，增添戏剧化效果，并将其转换为语音。然而，Meta 的语音合成质量仍有不足，带有“机器人腔调”且在某些对话场景中略显不自然，但开源特性使其具备自定义优化的潜力。

NotebookLlama 的核心流程包括四个步骤：

文本预处理：使用1B模型将 PDF 转录为.txt文件；
转录生成：利用70B模型从文本生成播客脚本；
创意优化：借助8B模型对文本加入戏剧化效果；
文本到语音转换：使用 TTS 模型将优化后的脚本生成播客音频。

Meta 研究团队还指出，项目对 TTS 模型效果的改进需求，未来计划采用更自然的语音生成模型，并增加内容来源支持，如网页、音频和视频文件。NotebookLlama 提供的开源代码已包含详细安装和运行指引，并支持 GPU 配置选项，以便用户使用 Hugging Face CLI 下载 Llama 模型并运行整个生成流程。

https://mp.w‍eixin.qq.com/s/uJ4bwe3HO2yHrqoml1iO1g

推特

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

AI的HTTPS时刻？苹果发布结合苹果生态中的机器学习与同态加密

Hyperspace AI CEO Varun：这是苹果关于密码学的革命性公告，可以称之为“AI的HTTPS时刻”。

这意味着您的私人机密数据可以与其他数据源进行合并，以安全地改善您的用户体验 (UX) 和更广泛社区的体验，而无需暴露任何私人数据：数据始终保持端到端加密。这是一种双赢局面，技术领域中难得的非零和游戏。

举个例子，假设您的设备上有一张照片。该照片会被转换为向量嵌入（如下所见的数字），然后加密后发送至服务器上运行的“同态加密” (Homomorphic Encryption, HE) 进程。该进程会在无需解密（即不暴露）用户私人数据的前提下返回完全加密的结果——即便在自身处理过程中也不会解密。也就是说，这实现了在完全加密的数据上进行搜索！

例如，用户会收到通知，照片中的区域在此示例中看起来像埃菲尔铁塔。

因此，这个系统允许利用网络集体智慧在安全的前提下提升众多应用的用户体验，尤其对与终端用户直接交互的AI产品帮助显著。通过这种方式，访问机密数据的独立工具也可以从网络效应中获益，实现最佳用户体验。

信息本身有着不断自由、无止境融合的趋势，而这项技术正推动着朝这一方向发展。

-> FHE 是未来五年内的关键支撑技术。这才是如何超越谷歌的方法。

https://x.com/varun_mathur/status/1850502044307562871

IC-Light v2：全球最好的重新照明工具

IC-Light v2 刚刚由 @lvminzhang 发布 🔦，现在运行在 FLUX 上，是全球最好的重新照明工具🌐，就这么简单。

试用官方演示✨📣 https://huggingface.co/spaces/lllyasviel/iclight-v2

https://x.com/multimodalart/status/1850521222213218380

Doria分享LLM采样详细介绍：从基础开始，逐步构建并重现自适应温度策略

发布我对LLM采样的详细注释介绍：https://colab.research.google.com/drive/18-2Z4TMua-nwgCpIZo0lsKL6RDxH5Bvo?usp=sharing。我们从基础开始，逐步构建并重现《Softmax is not enough》一文中的自适应温度策略（来自 @PetarV_93 等人）。

https://x.com/Dorialexander/status/1850505353663823974

Jason Liu分享RAG的未来预测：RAG 是一种功能，而不是效益

RAG 被高估了。真正的颠覆者是报告。

关键不在于节省回答问题的时间，而在于生成能推动业务成果的高价值决策工具。

AI 的未来不在于聊天，而是设计完美的报告模板。

在未来6到8个月内，RAG 将主要用于生成报告。我们会看到RAG 从问答系统逐渐转向报告生成系统。这是因为报告所能带来的价值远超过当前使用的RAG系统。通过我的顾问经验，我会解释我对理解价值的看法，以及公司应如何通过RAG描述他们所提供的价值。

RAG 是一种功能，而不是利益。

那么，为什么报告比RAG更好？简单来说，RAG系统的价值在于节省寻找答案的时间。这种价值是单维度的，难以提供更高的附加值。而报告作为决策工具，可以帮助更好地分配资源，是一种更高价值的产品。

https://x.com/jxnlco/status/1850583884611612757

mcdse-2b：高性能、可扩展且高效的多语言文档检索模型

给多模态 RAG 爱好者📣

mcdse-2b 是一个全新的高性能、可扩展且高效的多语言文档检索模型 ✨

🪆 可以缩小 6 倍，几乎没有性能损失

🤏🏻 可在 10GB 内嵌入 1 亿页内容！

💨 支持 transformers 或 vLLM 运行

https://x.com/mervenoyann/status/1850574131084828819

产品

Pricing Maker

Pricing Maker 是一款基于 AI 的定价生成器，提供个性化的定价策略，帮助企业根据实时市场数据优化产品价格和定价计划，以实现最大盈利。

https://pricingmaker.com/

TikBox.io

TikBox 是一个社交媒体平台，允许用户创建和分享短视频内容。它的功能类似于 TikTok，用户可以通过音频、特效和滤镜来制作有趣的视频。TikBox 还提供了社交互动的功能，比如评论、点赞和分享，让用户能够与朋友和其他创作者进行互动。

https://tikbox.io/

投融资

Waymo获56亿美元C轮融资，加速无人驾驶出租车扩张

Alphabet旗下的自动驾驶子公司Waymo宣布完成56亿美元的C轮超额认购融资，这是其迄今为止规模最大的一轮融资。本轮融资由Alphabet领投，参与的投资机构包括Andreessen Horowitz、Fidelity、Perry Creek、Silver Lake、Tiger Global和T. Rowe Price，但具体出资比例未披露。这是Waymo自2020年完成22.5亿美元B轮融资（后增至32亿美元）以来的首次融资。

本轮融资旨在推动Waymo的无人驾驶出租车业务扩展至更多城市，并进一步提升其自动驾驶技术能力。目前，Waymo已经将主要业务聚焦于自动驾驶出租车服务Waymo One，正在旧金山、洛杉矶、菲尼克斯等城市提供服务，并计划扩展至奥斯汀和亚特兰大。此外，Waymo在菲尼克斯天港国际机场等区域提供接驳服务，逐步将Waymo Driver系统推向更复杂的道路环境，如布法罗和华盛顿特区等城市。

投资机构对Waymo的技术和市场潜力充满信心。Tiger Global创始人Chase Coleman指出，Waymo的产品被认为是自动驾驶领域最安全、最成熟的选择。Silver Lake联合首席执行官Egon Durban进一步表示，Waymo Driver通过尖端研究和大量实践验证了AI在交通领域的潜力，建立了广泛的市场信任。

伴随着融资的注入，Waymo发布了第六代Waymo Driver，以提升成本效率并优化功能。同时，Waymo与Uber合作，进一步巩固市场扩展战略，以提升其在城市交通中的影响力。本轮融资标志着Waymo迈向关键发展阶段，其目标不仅是扩大市场覆盖，更是利用无人驾驶技术重塑城市交通格局。

https://mp.weixin.qq.com/s/9kyXRMh5qLEvf6YxLBFRPw

YC 创业公司 Pharos 获得 Felicis 领投的 500 万美元种子轮融资

Pharos，这家参加了 2024 年 Y Combinator 夏季孵化器的创业公司，成功获得了由 Felicis 领投的 500 万美元种子轮融资，投资方还包括 General Catalyst、Moxxie（前期投资者）和 Y Combinator。Pharos 专注于利用 AI 来简化医院质量报告的过程，帮助医院高效地将患者的电子病历数据报告给临床注册表，如美国医疗保险与医疗补助服务中心（CMS）和美国外科学院等机构。虽然这种报告并非强制性，但有助于医院识别质量问题，改进患者护理。

Pharos 的创始团队，包括 Felix Brann、Matthew Jones 和医学博士 Alex Clarke，他们具有丰富的行业经验。Pharos 的 AI 技术能够自动从电子病历中提取非结构化数据，生成所需的报告，显著节省医院的时间和人力成本。

公司官网：https://pharos.health/