我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告：ResearchFlow — 奇绩F23校友的开发的深度研究产品，PC端进入RFlow的分析报告，可直接点击节点右侧的小数字展开节点，登录后可在节点上直接“询问AI”，进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

潜空间第六季活动开始报名！！

【第 1 期嘉宾介绍】张月光——沐言智语创始人、产品经理，目前聚焦在 AI ToC 产品的创新探索。5 年阿里工作经验，从 0 到 1 创办妙鸭相机，还曾经从 0 到 1 打造二次元换装语音社交产品“元音”。本次张月光将带来《 AI 应用探索的一些实践》的分享。

资讯

Kimi杨植麟署名的新注意力架构MoBA发布

月之暗面科技有限公司发布了一种名为 MoBA（Mixture of Block Attention）的新注意力机制，这是一种将混合专家（MoE）原理应用于注意力机制的创新方法，旨在解决传统注意力机制在处理长序列时计算复杂度呈二次方增长的问题。MoBA 的核心思想是将上下文划分为多个块，并通过门控机制动态选择与查询 token 最相关的块进行注意力计算，从而实现稀疏注意力，显著降低计算成本。

MoBA 的实现过程包括五个步骤：首先根据门控网络和因果掩码确定查询 token 对键值（KV）块的分配；其次根据分配的 KV 块重新安排查询 token 的顺序；然后计算每个 KV 块的注意力输出；接着将输出重新排列回原始顺序；最后通过在线 Softmax 合并注意力输出。该机制通过这种方式实现了完全注意力与稀疏注意力的无缝切换。

实验结果显示，MoBA 在处理长序列任务时表现出色。与传统全注意力机制相比，MoBA 在稀疏度高达 75% 的情况下仍能保持与全注意力相当的扩展性能。此外，MoBA 的上下文可扩展性也得到了验证，当序列长度从 8k 提升到 32k 时，MoBA 的性能与全注意力的差距逐渐缩小。在大语言模型评估中，基于 Llama 3.1 8B 模型开发的 MoBA 版本在上下文长度扩展到 1M token 时，实现了 95.31% 的注意力稀疏度，同时保持了与全注意力模型相当的性能。

MoBA 的效率提升尤为显著。在处理 1M token 时，MoBA 比全注意力模型快 6.5 倍；在扩展到 1000 万 token 时，MoBA 实现了 16 倍加速。通过块稀疏注意力机制和优化实现，MoBA 将计算复杂度从二次方降低到了亚二次方级别，特别适合处理超长文本场景。此外，MoBA 还支持与全注意力机制的无缝融合，可以通过分层混合策略提升监督微调（SFT）性能。

月之暗面不仅发布了 MoBA 的技术报告，还公开了相关代码，这些代码经过一年的实际部署验证，具有较高的有效性和稳健性。MoBA 的提出为长序列处理提供了一种高效且灵活的解决方案，展示了其在大语言模型中的应用潜力

https://mp.weixin.qq.com/s/okrYBqSRxUrXQiHjo-nlYA

首个AI CUDA工程师来了！将PyTorch原生实现提速10-100倍

日本 AI 初创公司 Sakana AI 推出了全球首个「AI CUDA 工程师」框架，旨在通过 AI 技术自动优化 CUDA 内核，从而显著提升 PyTorch 等深度学习框架的运行效率。该框架结合了进化计算和大型语言模型（LLM），可将 PyTorch 代码自动转换为高度优化的 CUDA 内核，实现 10-100 倍的速度提升。

「AI CUDA 工程师」的工作流程分为四个阶段：首先将 PyTorch 代码翻译为可运行的 CUDA 内核；其次通过进化优化筛选出性能最佳的内核；然后利用「创新档案」记录高性能内核，为后续优化提供参考；最后结合交叉提示策略，进一步提升内核性能。该框架不仅优化了常见机器学习操作，还能将整个神经网络架构转换为高效的 CUDA 内核。

Sakana AI 发布的技术报告显示，「AI CUDA 工程师」成功翻译了 250 个 PyTorch 操作中的 230 多个，并在 81% 的任务中实现了优于 PyTorch 原生运行时的性能。此外，该框架生成的 CUDA 内核在 KernelBench 上达到了 SOTA 性能。团队还发布了包含超过 17,000 个验证内核的数据集，涵盖多种 PyTorch 操作，并在 Hugging Face 上开源。

然而，该框架也面临一些挑战。例如，NVIDIA 工程师指出其技术报告中存在误导性内容，包括对 Torch C++ 代码和 CUDA 内核的混淆，以及对 WMMA 性能的错误描述。此外，LLM 在生成针对现代 GPU 架构（如 TensorCore WMMA）的优化代码时存在局限性，可能由于训练数据不足或对硬件优化理解不够深入。

尽管如此，「AI CUDA 工程师」展示了 AI 自我优化的巨大潜力，为未来 AI 系统的高效运行提供了新思路。研究团队认为，AI 系统未来将像人类大脑一样高效，而利用 AI 优化 AI 是实现这一目标的重要途径。

https://mp.weixin.qq.com/s/uWoySPIqrOWEYAm64w18Kw

元资助

ByteDance Research提出基于世界模型的四足机器人视觉控制新框架

世界模型（World Model）是近年来机器学习和强化学习的研究热点，通过建立智能体对环境的内部表征和模拟，增强其理解和决策能力。ByteDance Research与上海交通大学合作，将世界模型应用于四足机器人视觉控制领域，提出了基于世界模型的感知算法WMP（World Model-based Perception）。该算法通过在模拟器中学习世界模型和策略，利用历史感知信息（包括视觉和本体感知）预测未来的感知，策略则以世界模型提取的特征为输入，输出具体控制动作。

传统特权学习框架中，教师策略依赖于模拟器中的特权信息（如高度图扫标点等），学生策略则模仿教师策略的动作。然而，这种两阶段训练模式导致学生策略性能受限，且特权信息设计繁琐。相比之下，WMP框架受动物心智模型启发，仅依靠视觉感官信息进行决策，解决了特权信息难以设计的问题。

WMP采用经典的RSSM（Recurrent State-Space Model）框架构建世界模型，包含编码模块、解码模块和循环模块。编码模块将感知信息和循环状态编码为随机变量，解码模块通过循环状态和随机变量恢复原始感知信息，循环模块则预测下一个循环状态。为满足真机运行的算力要求，WMP将世界模型的运行频率设定为策略运行频率的k分之一，类似于人体大脑和小脑的不同控制频率。

策略训练使用强化学习算法PPO，与世界模型训练同步进行，简化了传统特权学习的两阶段训练过程。训练后的策略和世界模型无需微调即可直接迁移到真实机器人设备上。在模拟实验中，WMP在IsaacGym模拟器的6种地形（Slope、Stair、Gap、Climb、Crawl、Tilt）上进行训练，相比使用特权信息的Student baseline，在多数任务中获得了更高的回报奖励和更小的速度追踪误差。真机实验中，WMP在更复杂的地形上表现出更高的成功率和一致性，验证了世界模型的泛化能力。

此外，验证实验表明，世界模型对真实轨迹的预测具有较高准确性，尤其是在关键部分。例如，虽然对桥洞障碍物的整体形状预测存在偏差，但对机器人需通过的窄缝位置和角度预测十分准确。这证明了世界模型能够解构和提取不同域中的关键要素，有助于模拟到真实的泛化。

WMP框架在四足机器人运动控制领域取得了出色效果，展示了世界模型在Sim2Real和机器人控制领域的巨大潜力，为未来世界模型在现实世界中的广泛应用提供了宝贵经验

https://mp.weixin.qq.com/s/aQF0Sj2i2tN5BgzAkH_O5g

AI 艺术工具通讯

2024年是AI艺术领域飞速发展的一年，开源模型和创意工具取得了显著进展。在图像生成方面，扩散模型从传统的U-Net架构向扩散Transformer（DiT）转变，目标函数进化为流匹配，为网络输出提供了新视角。Stability AI推出Stable Diffusion 3，腾讯发布开源的混元DiT模型，后续AuraFlow、Flux.1和Stable Diffusion 3.5等模型延续了这一趋势。其中，Flux.1在多项基准测试中超越Midjourney v6.0和DALL·E 3等闭源模型，刷新了开源模型性能纪录。

个性化生成技术也取得了飞跃。Textual Inversion和DreamBooth等技术实现了向文生图模型注入概念，推动个性化生成进入新阶段。Stable Diffusion XL的发布为开源个性化生成树立了新标杆。2024年还见证了仅需单张参考图即可生成高质量人像的技术突破，如IP-Adapter FaceID、InstantID和PhotoMaker等免训练方案，展现出媲美微调模型的实力。

在视频生成领域，尽管面临动作自然性、画面流畅性和人物一致性等挑战，但OpenAI的Sora提升了行业预期。开源视频模型如CogVideoX、Mochi、Allegro、LTX Video和混元视频等也不断涌现。尽管多数用户难以本地运行这些模型，但开源社区仍在持续突破。

音频生成在过去一年也取得了显著进展。OuteTTS、IndicParlerTTS等开源语音合成模型以及OpenAI的Whisper large v3 turbo语音识别模型相继发布。2025年初，Kokoro、LLasa TTS、OuteTTS 0.3等语音模型和JASCO、YuE等音乐模型集中发布，预示着音频领域将迎来爆发年。

2024年还涌现了许多创意工具，如Flux fine-tuning、Face to All、Flux风格塑形、智能图像外扩、动态人像、TRELLIS 3D引擎和IC Light等，这些工具展现了社区协作的力量。展望2025年，开源社区将在视频、动态和音频模型领域迎头赶上，随着高效计算和量化技术的突破，开源视频模型有望实现跨越式发展。同时，多模态创新将成为新的关注焦点。

2025年1月，开源领域迎来了多项新进展。YuE音乐生成模型在音乐生成质量上比肩闭源产品；混元3D-2、SPAR3D和DiffSplat等模型持续革新3D生成领域；Lumina-Image 2.0文生图模型以20亿参数开源，性能比肩80亿参数的Flux.1；此外，还有ComfyUI转Gradio的指南，帮助用户将复杂工作流转换为Gradio应用并部署于Hugging Face Spaces。

https://mp.weixin.qq.com/s/GIxQfae_zT8GyeaQoiI7gA

Figure发布具身大模型Helix

近日，机器人初创公司Figure AI宣布推出通用具身智能模型Helix，这一模型在多个方面实现了技术突破。Helix是一个视觉-语言-动作（VLA）模型，能够将感知、语言理解和动作控制统一起来，解决了机器人技术中的诸多长期挑战。具体来说，Helix实现了类人机器人上半身的高速连续控制，覆盖手腕、躯干、头部和单个手指，这是历史上的首次。此外，Helix还支持多机器人协作，两台机器人可以使用同一个模型完成复杂任务，例如协同收纳杂货物品。Helix还具备强大的抓取能力，能够捡起任何小型物体，包括数千种从未见过的物品，仅需遵循自然语言指令即可实现。值得注意的是，Helix使用单一神经网络权重学习所有行为，无需针对具体任务进行微调，且能够在本地GPU上运行，具备商业化落地能力。

在技术架构上，Helix采用了首创的“系统1+系统2”VLA模型，用于高速、灵巧地控制人形机器人上半身。系统1（S1）是一种快速反应的视觉运动策略，能够将系统2（S2）产生的语义表征转换为200Hz的精确连续机器人动作；而系统2（S2）则是一个基于互联网预训练的视觉语言模型，以7-9Hz运行，负责场景理解和语言理解，实现广泛泛化。这种解耦架构使得每个系统能够在最佳时间尺度上运行，S2可以进行高层次目标规划，而S1则专注于实时动作执行和调整。

在训练方面，Helix采用了端到端的训练方式，从原始像素和文本命令映射到连续动作，通过隐通信向量实现S1和S2的联合优化。训练数据集包括约500小时的高质量多机器人、多操作员的多样化遥操作行为数据，且在训练中引入时间偏移量以匹配推理延迟，确保训练与实际部署的一致性。在推理阶段，Helix通过异步执行模型，将S2和S1分别部署在专用GPU上，S2作为后台进程处理高级行为意图，S1则以200Hz的频率维持实时控制，这种策略使得Helix的运行速度与最快的单任务模仿学习策略相当。

Helix的性能表现令人瞩目。它能够以200Hz的频率协调35自由度的动作空间，控制从单个手指运动到末端执行器轨迹、头部注视和躯干姿势等一切。在多机器人协同任务中，两台机器人使用相同的Helix模型权重，无需特定训练或角色分配，即可通过自然语言指令实现灵活协作。此外，Helix还展现出了强大的物体泛化能力，能够拿起数千种形状、大小、颜色和材料各异的新奇家居用品，仅需自然语言指令即可实现。Figure公司表示，Helix的训练效率很高，仅使用约500小时的监督数据就实现了强大的泛化能力，且无需针对具体任务进行调整。

总的来说，Helix作为首个通过自然语言直接控制人形机器人上半身的VLA模型，展现了强大的即时行为生成能力、对象泛化能力和多机器人协作能力，为机器人技术的扩展和商业化落地提供了新的可能性。

https://mp.weixin.qq.com/s/kytaMLu_-6Ojlva_8N28Ng

推特

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

Spotify 现已接受由 ElevenLabs Voices 朗读的有声书

从今天起，@Spotify 现已接受由 ElevenLabs Voices 朗读的有声书。

如今，越来越多的人在听有声书。但对于许多作者而言，在主要平台上发布自己作品的音频版本一直成本高昂且耗时——直到现在。

https://x.com/elevenlabsio/status/1892593237396763089

Facebook 发布包含 100 万+ 推理轨迹的数据集

哇！Facebook 发布了一个包含 100 万+ 推理轨迹的数据集 🤯

该数据集由高质量的挑战性推理问题组成，这些问题是从预训练语料库 DCLM 和 FineMath 反向翻译而来。数据集还包括从文档中提取的参考答案！

太棒了，@facebook 👏

https://x.com/calebfahlgren/status/1892230869437366563

Pikaswaps：您可以使用上传的照片或描述的场景替换视频中的任何内容

今天，我们推出了 Pikaswaps：您可以使用上传的照片或描述的场景替换视频中的任何内容。效果令人难以置信地真实，可能性与您的想象力一样无限。

立即体验：Pika dot art

https://x.com/pika_labs/status/1892620122818294109

Open Reasoner Zero：仅用 1/30 的训练步数即可匹配 DeepSeek R1-Zero (32B)

🎉 推出 Open Reasoner Zero

🚀 性能：仅用 1/30 的训练步数即可匹配 DeepSeek R1-Zero (32B)！

📚 完整训练策略 & 技术论文

💻 100% 开源：代码 + 数据 + 模型

⚖️ MIT 许可随心使用！

🌊 让 Reasoner-Zero 的浪潮崛起！

https://x.com/CyouSakura/status/1892428094075502960

Griciūnas分享AI 代理 101：AI 代理的记忆

AI 代理 101：AI 代理的记忆

通常，代理的记忆是通过提示 (prompt) 提供的上下文，使得 LLM 能够更好地根据过去的交互或当前无法立即获取的数据进行规划和反应。

代理的记忆可以分为四种类型：

情景记忆 (Episodic Memory)这类记忆存储了代理过去的交互和执行的操作。当代理采取某个行动后，控制该代理的应用程序会将该行动存储在某种持久化存储中，以便后续需要时进行检索。一个典型的例子是使用 向量数据库 (Vector Database) 来存储交互的语义信息。
语义记忆 (Semantic Memory)代理可以访问的任何外部信息，以及代理自身应该掌握的知识。可以将其理解为类似 RAG (Retrieval-Augmented Generation) 应用中的上下文信息。这可能是代理独有的内部知识，或者是一种基础性上下文，使其能够筛选互联网规模的数据，以提供更准确的答案。
程序性记忆 (Procedural Memory)这类记忆存储的是系统性的信息，如系统提示 (System Prompt) 的结构、可用的工具 (Tools)、安全约束 (Guardrails) 等。这些信息通常会存储在 Git 仓库、提示 (Prompt) 和工具注册表 (Tool Registries) 中。
任务相关的长期记忆代理应用程序在执行任务时，会从长期记忆中提取信息并存储在本地，以便随时调用。
短期记忆 (Short-Term Memory) / 工作记忆 (Working Memory)代理从长期记忆中提取的信息，以及存储在本地的任务相关数据，被统称为短期记忆或工作记忆。所有这些信息被整合到提示 (Prompt) 中后，将传递给 LLM，指导系统采取进一步的行动。

通常，我们将 1-3 归类为长期记忆 (Long-Term Memory)，5 归类为短期记忆 (Short-Term Memory)。

以下是可能的实现方式的可视化示例 👇

以上就是 AI 代理记忆的基本概念！其余的关键点在于如何设计代理系统的架构 (Agentic System Topology)。

你如何看待 AI 代理的记忆？

#LLM #AI #MachineLearning

https://x.com/Aurimas_Gr/status/1892196166973977034

产品

rtrvr.ai/exchange 全球首个智能体工作流交易平台

网页智能体，只需通过提示指令，就能在您浏览 Chrome 浏览器时自主完成任务、将数据抓取到表格中，以及调用应用程序接口（API）！现推出全球首个智能体动作交易平台，供用户共享任务、功能、记录和检索到的数据集！

这是一个革命性的 AI 智能体工作流协作空间，能让您：

分享您的智能体工作流：轻松分享您本地创建的任务、函数、记录以及检索到的表格数据集。用您的创新成果助力他人实现网页交互和数据提取的自动化 —— 基于自主任务、数据抓取和 API 调用等核心功能来进行分享。

发现并导入预制自动化工作流：即时访问不断扩充的社区共享工作流库。需要自动填写复杂的网页表单？抓取复杂网页并将结果发送到表格中？想要根据网页数据触发 API 调用？智能体工作流交易平台很可能就有现成的工作流 —— 只需导入并运行，借助社区构建的成果，满足您的核心自动化需求！

https://www.rtrvr.ai/

投融资

AI编程初创公司Codeium估值近30亿美元，完成新一轮融资

AI编程初创公司Codeium正在以28.5亿美元的估值进行新一轮融资。此次融资由Kleiner Perkins主导，距离其上一轮1.5亿美元的C轮融资仅过去六个月。在C轮融资中，Codeium的估值为12.5亿美元，由General Catalyst领投，Kleiner Perkins和Greenoaks参与。此次融资的具体金额尚未得到确认。

Codeium的年化经常性收入（ARR）已达到约4000万美元，其估值倍数高达70倍ARR，远高于竞争对手Anysphere（25倍ARR）。Codeium的高估值背后是其专注于为企业客户提供AI编程解决方案的战略定位。与许多竞争对手主要面向个人开发者不同，Codeium通过其平台的免费版本已吸引了超过1000家企业客户。去年11月，Codeium推出了Windsurf Editor工具，能够实现无需人工干预的代码自动编写。

Codeium成立于2021年，由Varun Mohan和Douglas Chen共同创立。公司旨在通过AI编程工具推动企业技术现代化，成为全球开发者的标准助手。其产品支持超过70种编程语言，并深度集成主流IDE。

https://techcrunch.com/2025/02/19/ai-coding-startup-codeium-in-talks-to-raise-at-an-almost-3b-valuation-sources-say/

Mercor完成1亿美元B轮融资，估值达20亿美元

AI招聘初创公司Mercor由三位21岁的Thiel Fellows创立，近期完成了1亿美元的B轮融资，估值达到20亿美元。此轮融资由Felicis领投，Benchmark、General Catalyst、DST Global和Menlo Ventures等参与。此前，Mercor在2023年获得了由General Catalyst领投的360万美元种子轮，以及2024年由Benchmark领投的3200万美元A轮融资。

Mercor成立于2023年，利用AI技术自动化简历筛选、候选人匹配和面试流程，旨在减少招聘过程中的偏见。该公司声称其AI系统比人类招聘者更高效，已帮助超过46.8万名求职者匹配到职位。Mercor的收入主要来自向客户收取的小时费率，目前年化经常性收入（ARR）已达7500万美元。

Mercor的三位创始人——Brendan Foody、Adarsh Hiremath和Surya Midha——凭借其快速的业务增长和创新模式，成为最年轻的“独角兽”公司创始人。公司计划利用新资金加速其全球人才匹配能力，进一步拓展市场。