大模型日报（5月6-7日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

特斯拉Optimus人形机器人进厂打工，娴熟分装电池、自我矫正，还能走更远了

特斯拉人形机器人又解锁了新技能！昨日，Tesla Optimus官方发布了新的 demo 视频，展示了二代 Optimus 人形机器人的最新进展。这次，Optimus 开始进厂打工了，在特斯拉电池工厂学会了分装电池，并且比以前走得更快更远更稳了。Optimus 在机器人的 FSD 计算机上实时运行，而仅仅依靠 2D 摄像头、手部触觉和力传感器。Optimus 利用它的腿保持平衡，同时网络驱动着整个上半身。

https://mp.weixin.qq.com/s/P5pJFKGxxvi-jBuPCmk-RQ

速读60万字《马斯克传》、手机一键生成PPT，零一万物上线AI生产力工具「万知」

5 月 7 日，零一万物官宣了第一款为中国人量身一站式 AI 工作平台 —— 万知。它可以做会议纪要、周报、写作助手，还可以解读财报、论文等各类文件，帮你做 PPT。这一切，都可以登录一键解决，中英双语，完全免费。大众可以通过网页（www.wanzhi.com）和微信小程序万知 AI 找到这位人人都能用上的 AI 个人特助。

https://mp.weixin.qq.com/s/HmWUJpSQ1TseaoxfBtOAuA

爆火后反转？「一夜干掉MLP」的KAN：其实我也是MLP

多层感知器（MLP），也被称为全连接前馈神经网络，是当今深度学习模型的基础构建块。MLP 的重要性无论怎样强调都不为过，因为它们是机器学习中用于逼近非线性函数的默认方法。但是最近，来自 MIT 等机构的研究者提出了一种非常有潜力的替代方法 ——KAN。该方法在准确性和可解释性方面表现优于 MLP。而且，它能以非常少的参数量胜过以更大参数量运行的 MLP。比如，作者表示，他们用 KAN 重新发现了结理论中的数学规律，以更小的网络和更高的自动化程度重现了 DeepMind 的结果。具体来说，DeepMind 的 MLP 有大约 300000 个参数，而 KAN 只有大约 200 个参数。这些惊人的结果让 KAN 迅速走红，吸引了很多人对其展开研究。很快，有人提出了一些质疑。其中，一篇标题为《KAN is just MLP》的 Colab文档成为了议论的焦点。

KAN 作者：我想传达的信息不是「KAN 很棒」，而是「尝试批判性地思考当前的架构，并寻求从根本上不同的替代方案，这些方案可以完成有趣、有用的事情。」

一块钱100万token，超强MoE模型开源，性能直逼GPT-4-Turbo

开源大模型领域，又迎来一位强有力的竞争者。近日，探索通用人工智能（AGI）本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2，主打训练成本更低、推理更加高效。DeepSeek-V2 参数量达 236B，其中每个 token 激活 21B 参数，支持 128K token 的上下文长度。

https://mp.weixin.qq.com/s/tAA8XUbU__9FgvEvXxsykw

仅用250美元，Hugging Face技术主管手把手教你微调Llama 3

大语言模型的微调一直是说起来容易做起来难的事儿。近日 Hugging Face 技术主管 Philipp Schmid 发表了一篇博客，详细讲解了如何利用 Hugging Face 上的库和 fsdp 以及 Q-Lora 对大模型进行微调。

微调主要步骤如下：

设置开发环境
创建并加载数据集
使用 PyTorch FSDP、Q-Lora 和 SDPA微调大语言模型
测试模型并进行推理

本文进行的实验是在英伟达（NVIDIA）H100 和英伟达（NVIDIA）A10G GPU 上创建和验证的。配置文件和代码针对 4xA10G GPU 进行了优化，每个 GPU 均配备 24GB 内存。如果使用者有更多的算力，第 3 步提到的配置文件（yaml 文件）需要做相应的修改。

https://mp.weixin.qq.com/s/PR4fCky5a6geBdCbxsOURg

LeCun上月球？南开、字节开源StoryDiffusion让多图漫画和长视频更连贯

两天前，图灵奖得主 Yann LeCun 转载了「自己登上月球去探索」的长篇漫画，引起了网友的热议。其实，产出这些漫画的研究出自南开大学、字节跳动等机构。在《StoryDiffusion：Consistent Self-Attention for long-range image and video generation》这篇论文中，该研究团队提出了一种名为 StoryDiffusion 的新方法，用于生成一致的图像和视频以讲述复杂故事。

https://mp.weixin.qq.com/s/9GkSQkEax3D5boQQ9LNIRQ

58行代码把Llama 3扩展到100万上下文，任何微调版都适用

开源社区最新发现，只需58行代码，任何Llama 3 70b的微调版本都能自动扩展到1048k（一百万）上下文。背后是一个LoRA，从扩展好上下文的Llama 3 70B Instruct微调版本中提取出来，文件只有800mb。接下来使用Mergekit，就可以与其他同架构模型一起运行或直接合并到模型中。首先1048k上下文版Llama 3微调模型来自Gradient AI，一个企业AI解决方案初创公司。而对应的LoRA来自开发者Eric Hartford，通过比较微调模型与原版的差异，提取出参数的变化。他先制作了524k上下文版，随后又更新了1048k版本。首先，Gradient团队先在原版Llama 3 70B Instruct的基础上继续训练，得到Llama-3-70B-Instruct-Gradient-1048k。

具体方法如下：

调整位置编码：用NTK-aware插值初始化RoPE theta的最佳调度，进行优化，防止扩展长度后丢失高频信息
渐进式训练：使用UC伯克利Pieter Abbeel()团队提出的Blockwise RingAttention方法扩展模型的上下文长度

值得注意的是，团队通过自定义网络拓扑在Ring Attention之上分层并行化，更好地利用大型GPU集群()来应对设备之间传递许多KV blocks带来的网络瓶颈。

最终使模型的训练速度提高了33倍。

https://mp.weixin.qq.com/s/gG6qTLIpOcURt5s8GFy96w

Sam Altman 《麻省理工科技评论》最新采访：AI 杀手级功能，不需要新的硬件和训练数据，并且了解你的一生……

近日， Sam Altman 接受了《麻省理工科技评论》记者的采访，Altman 将 AI 杀手级应用描述为：“超级能干的同事，它绝对了解我一生的一切，包括我的每封电子邮件、每一次对话。此外，它可以立即解决一些任务，而对于更复杂的任务，它可以进行尝试，但如果需要的话，它会向你提出问题”。在 Altman 看来，在新范式中，AI 将能够在聊天界面之外帮助我们，并帮助我们摆脱现实世界的任务。

https://mp.weixin.qq.com/s/YO09n7BhvAQqGrgMnMeDww

新SOTA，仅几个标记基因即可自动标记，复旦大学开发空间转录组学语义注释贝叶斯框架

空间转录组学的出现，彻底改变了组织内基因表达的研究。然而，注释空间点的生物特性仍然是一个挑战。为了解决这个问题，复旦大学的研究人员引入了 Pianno，一个基于标记基因自动进行结构语义注释的贝叶斯框架。Pianno 在精确注释各种空间语义（从不同的解剖结构到复杂的肿瘤微环境）以及估计细胞类型分布（跨各种空间转录组学平台生成的数据）方面的卓越能力。研究人员使用 Pianno 结合聚类方法，揭示了人类新皮质深层 3 中区域和物种特异性的兴奋性神经元亚型，展示了人类新皮质的细胞进化过程。Pianno 作为一种准确高效的工具，能够替代劳动密集型的手动注释程序，并在与无监督聚类方法结合时揭示新的生物学洞见。

https://mp.weixin.qq.com/s/LvdfS1cbpYsSl7KbR12rAA

耐600℃高温存储器问世，有助开发极端环境下人工智能计算系统

美国宾夕法尼亚大学科学家研制出一款可在600℃高温下持续工作60小时的存储器。这一耐受温度是目前商用存储设备的两倍多，表明该存储器具有极强的可靠性和稳定性，有望在可导致电子或存储设备故障的极端环境下大显身手，也为在恶劣条件下进行密集计算的人工智能系统奠定了基础。相关论文发表于新一期《自然·电子学》杂志。

https://www.cls.cn/detail/1667722

推特

脉冲星：首创的家族化软件定义电磁战系统，快速识别并应对新威胁

脉冲星 —— 一种首创的家族化软件定义电磁战（EW）系统，利用AI在战术边缘快速识别并应对新威胁，从几小时到几天，而不是几个月或几年。

威胁发展速度比以往任何时候都快 —— 在频谱中是一场感知与躲避、干扰与适应的猫鼠游戏，更新现在在几周、几天甚至几小时内完成。

对传统电磁战系统的渐进式改进已经跟不上了。

脉冲星应运而生、开发并完善，以应对当今的威胁和未来可能出现的任何事物。

了解更多：https://anduril.com/article/anduril-announces-pulsar/

https://x.com/anduriltech/status/1787452286542708857

LeRobot：Hugging Face 的第一个机器人技术库推出，旨在促进更大的开源机器人社区

欢迎 LeRobot！这是 Hugging Face 的第一个机器人技术库 🔥

在过去的几个月中，我们见证了机器人技术领域令人印象深刻的研究突破（ALOHA、扩散政策、UMI 等），使得机器人行为得以训练，这在以前被认为是无法仅凭有限数据量和小团队完成的。

我们还看到了大量私人投资流入优秀的机器人团队，展示了即将商用的机器人令人震惊的行为。

我们认为现在是时候帮助更大的开源机器人社区出现，并与最近在大型语言模型和多模态模型中的进展连接/融合，带来社区的所有多样性和激动人心的发展。

一如既往，我们在这里扮演的角色是社区的公民服务员，帮助并促进领域内的工作，提供更容易访问的模型、数据集和工作实现，教育材料。尽可能地收集不同的格式和解决方案，并提供长期维护的开源解决方案。

我个人对 LeRobot 非常兴奋，因为这是我梦想了好几年的事情（统一机器人/RL数据集和模型，模拟与现实世界），尝试了几次但没有成功（模拟库），看到 @RemiCadene、@alibert_s 和 @asoare159 推出如此强大和深思熟虑的库，对我来说非常激动。

https://github.com/huggingface/lerobot

关于 Remi 的所有详细信息都在这个帖子中：https://x.com/RemiCadene/status/1787378768979640598

https://x.com/Thom_Wolf/status/1787384242277654786

用大型语言模型处理文件：发票或收据！

您不需要 RAG 来提取发票数据

完整视频：https://youtu.be/watch?v=_GoGdF1TfN8

代码：https://github.com/katanaml/sparrow

文件如发票或收据可以直接由大型语言模型处理，无需 RAG。我将解释如何通过 Ollama 和 Jason liu 的 Instructor 在本地进行这一操作。多亏了 Instructor，可以使用您自己的 Pydantic 类来验证大型语言模型的结构化输出。

https://x.com/andrejusb/status/1787385531770265800

DeepSeek-V2，开源MoE模型，AlignBench 中名列前三

🚀 推出 DeepSeek-V2：尖端的开源 MoE 模型！

🌟 亮点：

在 AlignBench 中名列前三，超过 GPT-4 并接近 GPT-4-Turbo。

在 MT-Bench 中排名顶级，与 LLaMA3-70B 竞争并超过 Mixtral 8x22B。

擅长数学、编程和推理。

支持 128K 上下文窗口。

✨ 特点：

创新架构，活跃参数 21B，总参数 236B。

无与伦比的 API 价格，同时保持真正的开源和无商业化。

https://x.com/deepseek_ai/status/1787478986731429933

Wayve AI C轮获投10.5亿美元，将用于开发汽车用具身AI产品

我们有一些激动人心的新闻要分享🚨我们很高兴地宣布，在SoftBank领投，Nvidia和Microsoft参投的最新一轮融资中，我们筹集了10.5亿美元。这一里程碑将推动我们开发并推出我们的首个汽车用具身AI产品🚗🚗我们非常感激我们出色的团队、支持我们的投资者和相信我们愿景的合作伙伴🙏汽车行业的AI驱动转型现在就开始！了解更多信息👉

https://wayve.ai/press/series-c/

https://x.com/wayve_ai/status/1787618605468704998

OpenAI API现在可以查看统计数据，流式传输的末尾额外显示

现在在使用 Chat Completions API 的流式传输时可以查看使用统计数据。设置 stream_options: {"include_usage": true} 后，您将在流的末尾看到一个额外的块，其中填充了使用情况数据。

https://cookbook.openai.com/examples/how_to_stream_completions#4-how-to-get-token-usage-data-for-streamed-chat-completion-response

https://x.com/OpenAIDevs/status/1787573348496773423

产品

Actionize AI

Actionize AI 是一个针对 GPT 的工具，它让非技术用户也能轻松地为 GPT 创建自定义的操作功能。通过与无代码工具如 Zapier 或 Make.com 的集成，用户无需编程即可构建自己的 GPT 工作流程，只需将生成的代码片段粘贴到 GPT 创建器中即可。Actionize AI 旨在民主化 GPT 功能开发，为不会编码的用户提供一种简单有效的方式来扩展 GPT 的能力。

https://actionize.ai/

ContentPie

ContentPie 是一款专为解决 SEO 内容创作难题而开发的 AI 辅助工具。它通过深入了解品牌信息，自动生成优质、针对性的内容，帮助用户提高内容的搜索引擎排名表现。这个工具能够大大提高内容创作的效率，为数字营销人员和 SEO 从业者带来便利。

https://www.contentpie.ai/

投融资

米兰教育科技公司Futura获得1400万欧元A轮融资

位于米兰的教育科技公司Futura成功获得1400万欧元的A轮融资，此轮融资由Eurazeo领投，现有投资者United Ventures和新投资者Axon Partners Group参与。Futura利用其开发的创新算法，提供个性化的学习路径优化，旨在使全球学习更快更好。自2022年获得180万欧元种子资金以来，公司收入持续翻倍，已实现盈利。此次资金将用于扩展在欧洲的业务范围和开发新产品。

公司官网：https://www.futura.study/

https://www.eu-startups.com/2024/05/milan-based-edtech-futura-raises-e14-million-series-a-to-make-the-world-learn-faster-and-better/