我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

RoboDual：行业首款通用具身操作的双系统协同框架诞生

智元机器人与上海人工智能实验室合作推出了首款通用具身操作双系统协同框架——RoboDual，旨在融合通才（Generalist）的广泛适应性和专才（Specialist）的高效精准性，以提升机器人的操作灵活性和准确性。传统具身智能系统中，负责任务规划的“大脑”泛化能力强但实操效率低，而负责运动控制的“小脑”精度高但适应性不足，两者通常难以协同工作。RoboDual通过在机器人边缘侧部署该框架，利用“小脑”的低延迟、高精度特点弥补“大脑”的不足，实现高效推理和任务执行。

RoboDual框架采用异步控制架构，即在Generalist生成一次动作时，Specialist能生成多步连续动作，从而在保证鲁棒性和精度的前提下，显著降低了控制延迟。在实验中，RoboDual在NVIDIA RTX 5000 Ada GPU上实现了15Hz的控制频率，在仿真和真机环境中的泛化和适应能力超越了传统模仿学习方法。相比OpenVLA，RoboDual在高效任务适配的同时，推理延迟更低，能够以仅5%的数据量实现对新场景和任务的快速适应。

RoboDual框架中，Generalist部分基于Prismatic-7B VLM的OpenVLA架构，处理视频帧和指令，自回归生成动作潜变量，并交给Specialist模型。Specialist使用Diffusion Transformer (DiT)架构，结合Generalist的动作参考及传感器输入进行多步连续动作预测，确保动态场景中的精确控制。实验表明，RoboDual在多个泛化场景下表现优越，提供了更广泛的通用机器人操作解决方案，推动了机器人技术的广泛应用与发展。

https://mp.weixin.qq.com/s/LYmjmrw2ay2scSYPg1GDvA

OpenAI满血版o1剧透：数学代码能力再破天花板，已开启测试评估

OpenAI在官网商业化频道中对即将发布的满血版o1模型进行了提前预告。视频显示，满血版o1与GPT-4o和o1-preview（预览版）同场对比，在数学和编码能力上明显领先。据透露，OpenAI计划同步发布GPT和o1两个系列，满血版o1正在基准测试中，未来几个月还将为o1系列增加网页浏览、文件和图像上传等功能，并支持ChatGPT自动选择合适模型。

然而，网友发现一个有趣现象：在PhD级别的科学任务中，满血版o1竟不敌o1-preview。对此，OpenAI首席产品官Kevin Weil解释，这或许是由于两者的构建方式存在细微差别。目前，o1推理模型仍处于改进阶段，未来的测试结果将揭示更详细的性能差异。

https://mp.weixin.qq.com/s/tauednAxd_VNjsPTr9SloQ

2¹³⁶²⁷⁹⁸⁴¹−1，GPU发现人类已知最大的素数，比第二大多1600万位数字

近日，人类已知的最大素数被通过GPU发现！这个素数是2¹³⁶²⁷⁹⁸⁴¹−1，总共有41024320位十进制数字。该发现由英伟达前员工卢克通过开源项目GIMPS实现，初步在英伟达A100上发现，并经H100验证。2¹³⁶²⁷⁹⁸⁴¹−1比之前的记录大了1600多万位，是第52个已知的梅森素数，也是GIMPS项目发现的第18个。梅森素数以2P−1的形式存在，由法国数学家梅森命名，因其高效的素性检验算法备受关注。GIMPS项目自1996年成立，作为世界上寿命最长的分布式项目之一，专注于寻找最大梅森素数。卢克的贡献也证明了GPU不仅适用于AI，还能推动基础数学研究。他的“云超级计算机”使用数千台GPU服务器，横跨17个国家，最终发现了这一新素数。虽然梅森素数的实际用途有限，但其探索代表了人类在数学研究领域的追求与荣耀。

‍https://mp.weixin.qq.com/s/oKz3QbqKPZCgVbcTkBKbEQ‍

微软一口气发10个商业智能体！内测提高9.4%销售收入，六成500强企业在用Copilot

微软CEO纳德拉宣布了AI领域的最新进展，一口气推出了10个商业智能体（Agent），覆盖销售、服务、财务、供应链等业务场景。这些Agent能够自动筛选潜在客户、监控供应链表现、分析客户意图，帮助企业优化业务流程。例如，销售资格Agent可以锁定最有价值的商机，供应商通讯Agent实时处理供应链延迟问题，客户知识管理Agent协助客服快速响应。

这些Agent的功能从简单的提示响应到完全自主决策不等，微软表示，目前已有60%的财富500强企业正在使用Microsoft 365 Copilot来提高业务效率。例如，Lumen Technologies每年预计节省5000万美元，Honeywell的生产力提升相当于增加了187名全职员工，Finastra将项目时间从七个月缩短到七周。

微软还计划下月启动Copilot Studio的公测，允许用户创建自主Agent，连接多个数据源并执行复杂任务。例如，Pets at Home通过案例整理Agent节省了数百万美元，麦肯锡的客户入职Agent使流程缩短90%，汤森路透的法律尽职调查Agent也大大加速了工作流程。

在安全和数据治理方面，微软为Agent提供了全面的保护，确保数据源安全和使用权限管理，Agent严格遵循安全与隐私原则。这些Agent不仅能为企业创造直接的业务价值，还将重新定义业务流程的自动化和智能化。

‍https://mp.weixin.qq.com/s/HFMmkBOtN2qu5IpsVFAcIg‍

大模型是否有推理能力？DeepMind数月前的论文让AI社区热议

DeepMind 在2023年2月发布了一篇论文《Grandmaster-Level Chess Without Search》，展示了一个参数量为2.7亿的Transformer模型无需复杂的搜索算法，即可达到特级大师级别的国际象棋水平。该模型通过监督学习从Stockfish 16生成的大量棋局数据中学习棋盘动作-值的预测，模型的Elo评分达到了2895，优于AlphaZero的策略网络和GPT-3.5-turbo-instruct。

该论文的结果引发了广泛讨论。支持者认为，这表明Transformer不仅是“统计模式识别器”，还具备一定的推理和规划能力。然而，批评者指出该模型的评估方法有局限性，尤其是在“blitz”（闪电战）这种快速棋赛环境下，这类比赛依赖直觉而非深度推理，因此不足以证明模型具备真正的推理能力。此外，模型对人类玩家的表现不及其与机器人对战时的得分，这也引发了关于模型泛化能力的争议。

论文中，DeepMind通过监督学习将复杂的国际象棋策略蒸馏到前馈Transformer中。为了构建训练数据，研究者从lichess.org下载了1000万场游戏，并使用Stockfish 16为这些游戏的棋盘状态估值。模型使用FEN字符串编码棋局状态，并通过标准的Transformer架构进行训练。结果表明，随着数据量和模型规模的增加，模型在各种国际象棋谜题和实际比赛中的表现显著提升，表明规模和数据对于模型的推理能力至关重要。

‍https://mp.weixin.qq.com/s/oKz3QbqKPZCgVbcTkBKbEQ‍

大模型是否有推理能力？DeepMind数月前的论文让AI社区热议

一篇论文

xAI推出API，探索生成式AI市场

2024年10月，埃隆·马斯克的AI初创公司xAI正式推出其首个API，名为“grok-beta”。该API提供xAI的生成式AI模型，按使用量收费，每百万输入Token收费5美元，每百万输出Token收费15美元。虽然目前API的功能相对基础，但支持与外部工具的连接，未来可能会加入视觉模型，具备分析文本和图像的能力。

xAI于2023年成立，最初推出的Grok模型被集成到X（前身为Twitter）中，供X Premium+用户使用。Grok以其“叛逆性格”著称，敢于回答其他AI系统拒绝的问题，并且在图像生成和新闻摘要等功能上表现活跃。不过，Grok也因其错误频发的摘要和无防护的图像生成功能引发争议。

xAI目前正加速追赶OpenAI等竞争对手，并已获得包括Andreessen Horowitz、红杉资本和富达投资在内的多家机构的60亿美元投资。马斯克的计划包括使用X平台上的数据以及其旗下公司（如特斯拉、SpaceX等）的数据训练AI模型，但这一举措遭到特斯拉股东的反对，认为这会分散资源。

xAI的下一代Grok模型正在田纳西州的孟菲斯数据中心训练，该中心因未经许可使用涡轮机被指责加剧雾霾。公司计划于2025年升级该数据中心，但需得到当地能源监管部门的批准。

https://techcrunch.com/2024/10/21/xai-elon-musks-ai-startup-launches-an-api/

推特

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

Willison分享：过去七天内使用Claude Artifacts构建的14个互动式迷你应用

我在过去七天内使用Claude Artifacts构建了14个互动式迷你应用——以下是一个描述它们的帖子

我这周使用Claude Artifacts构建的一切

我是Claude Artifacts功能的超级粉丝。这个功能允许你通过提示Claude创建一个使用HTML、CSS和JavaScript的互动单页应用（SPA），然后可以直接在Claude界面中查看结果，进一步与Claude进行迭代，如果满意的话，还可以复制生成的代码。

我在查看Claude的活动导出数据时（我构建了一个claude-to-sqlite工具，用来将其转换为SQLite，以便在Datasette中进行探索），我决定看看我在过去一周内使用了多少次Artifacts。结果比我预想的还要多！

能够快速创建一个完整的互动应用——有时是作为一个示例原型，但通常是直接解决问题的工具——这真是一个非常有用的功能。

以下是我在过去七天内使用Claude Artifacts做的大部分事情。我几乎为每个项目提供了提示或完整的对话记录。

https://x.com/simonw/status/1848372319548240371

个性化解释器：只需上传一个PDF，即可收到包含视觉效果和文档中图像的、用你自己声音生成的解释

NotebookLM很棒，但如果我想使用自己的声音并添加来自PDF的视觉效果呢？

🚀 介绍个性化解释器——只需上传一个PDF，即可收到包含视觉效果和文档中图像的、用你自己声音生成的解释。

这个视频完全由AI生成。🔊

https://x.com/MisbahSy/status/1848377457574863145

IBM和CrewAI宣布合作，与watsonx.ai集成，旨在通过多个AI代理构建和简化工作流程

IBM和CrewAI从今天起合作，帮助美国及全球的企业大规模采用AI代理。

宣布新的CrewAI与watsonx.ai集成，旨在通过多个AI代理构建和简化工作流程。

我们非常高兴地分享这一令人兴奋的新合作，将IBM的watsonx.ai™和CrewAI结合在一起。通过结合IBM的AI专业知识与CrewAI独特的协作式代理解决方案，这一集成将彻底改变组织管理复杂工作流程的方式。

https://x.com/joaomdmoura/status/1848394061910323325

AnthropicAI和OpenAI收入来源对比：前者更像基础设施提供者，而后者更像面向消费者的公司

根据它们的收入来源，@AnthropicAI 作为基础设施提供者出现，而 @OpenAI 则更像一家面向消费者的公司。

很期待看看几年后这两家公司会发展到什么程度。

https://x.com/auchenberg/status/1848427656598970387

谷歌分享CT Foundation：医学影像嵌入工具，可用于快速训练模型

宣布CT Foundation，这是一个新的医学影像嵌入工具，它接受计算机断层扫描（CT）体积作为输入，并返回一个小型且信息丰富的数值嵌入，用于快速训练模型。了解更多并亲自试用 → https://goo.gle/4dYkClf

https://x.com/GoogleAI/status/1848437918513434780

产品

Trag

Trag 是一个 AI 代码审查助手，能够将工程师的知识转化为可执行的规则，快速审查代码并确保其符合团队标准。用户通过自然语言描述规则，Trag 自动理解并应用于代码库，简化了代码审查流程，提高了效率。

https://usetrag.com/

Talkstack

TalkStack 是一个基于人工智能的语音和文本助手，可以执行自动化销售和客户支持工作。它支持多种语言，能够创建无代码的自定义工作流程，快速响应并提供个性化服务，适合初创企业和大型公司，提高工作效率。

https://dashboard.talkstack.ai/

投融资

One Zero融资1亿美元，致力于AI驱动的金融科技创新

由Mobileye创始人Amnon Shashua创立的金融科技公司One Zero正在筹集至少1亿美元的资金。这家AI驱动的金融科技公司旨在通过人工智能技术，提供零售银行服务，尤其是为普通用户提供类似高净值客户的私人银行服务。One Zero目前已经筹集了约2.42亿美元，2023年估值为3.2亿美元。此次融资后，估值预计将显著提升。

One Zero已在以色列获得银行执照，并建立了一个零售银行，其零售业务目前拥有约11万名客户。公司计划将这些零售业务的数据和经验用于训练其AI模型，以便向全球其他银行提供技术授权。此外，公司推出的核心产品是名为“Ella”的智能聊天机器人，旨在超越传统银行服务中的聊天机器人，提供更复杂和个性化的金融建议服务。

One Zero的主要投资者包括腾讯、OurCrowd和SBI Ventures。此次融资将用于进一步开发其AI技术，并扩展全球业务。

公司官网：https://www.onezerobank.com/en/

https://techcrunch.com/2024/10/21/one-zero-the-ai-fintech-started-by-the-founder-of-mobileeye-is-raising-100m-say-sources/

Neysa完成3000万美元A轮融资，旨在与全球AI超大规模计算服务商竞争

印度初创公司Neysa近日宣布完成了3000万美元的A轮融资，旨在扩展其AI基础设施业务，进军全球AI市场。此次融资由NTTVC、Z47（前称Matrix Partners India）和Nexus Venture Partners共同领投。此前，Neysa在今年早些时候完成了2000万美元的种子轮融资。

Neysa由资深技术企业家Sharad Sanghi于2023年创立，提供基于AI的基础设施和平台服务。公司推出的旗舰平台Velocis于7月上线，提供按需计算基础设施。此次新融资将用于加强Neysa的基础设施建设、提升研发能力，并拓展市场。公司还计划推出开发者平台和推理即服务（Inference-as-a-Service），并致力于优化AI工作负载管理。

Neysa目前拥有约12位付费客户，并在印度运营多个大型概念验证项目。尽管目前客户主要集中在印度，Neysa计划在下一轮融资后进入全球市场。此外，公司计划通过债务融资以满足日益增长的GPU和基础设施需求。

公司官网：https://www.neysa.ai/

https://techcrunch.com/2024/10/21/indias-neysa-bags-30m-to-compete-with-global-ai-hyperscalers/

DataCrunch完成1300万美元种子轮融资

DataCrunch，这家总部位于芬兰的初创公司，计划成为欧洲首批“AI计算”超大规模计算服务商之一，并以可再生能源为核心竞争优势。该公司提供GPU即服务（GPU-as-a-service），为AI处理任务提供算力支持。2024年10月，公司宣布完成1300万美元的种子轮融资，其中760万美元为股权融资，主要投资者包括byFounders、J12 Ventures和Aiven联合创始人Oskari Saarenmaa。其余540万美元来自LokalTapiola和Nordea的债务融资。

这种债务融资的模式使DataCrunch能够利用物理资产（如Nvidia的GPU）作为抵押，降低投资风险。这一轮融资使DataCrunch的总融资额达到了1800万美元，资金将用于扩大其基础设施，支持Nvidia最新的服务器和集群，并继续拓展其客户基础，其中包括索尼和OpenAI的研究人员。

DataCrunch的另一大卖点是其使用绿色能源的数据中心，位于芬兰和冰岛，后者长期依赖100%可再生能源。公司未来计划建设自有数据中心，并有可能在2025年进一步扩大融资以支持这一计划。