大模型日报（5月24日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

最强端侧多模态模型，Once More！

面壁小钢炮 MiniCPM 系列，再次推出最强端侧多模态模型 MiniCPM-Llama3-V 2.5，且支持 30+ 多种语言：

最强端侧多模态综合性能：超越多模态巨无霸 Gemini Pro 、GPT-4V
OCR 能力 SOTA，9 倍像素更清晰，难图长图长文本精准识别
图像编码快 150 倍！首次端侧系统级多模态加速

MiniCPM是以「以小博大」著称的旗舰端侧模型，也不断推新端侧多模态能力天花板—— MiniCPM-Llama3-V 2.5 实现了「以最小参数，撬动最强性能」的最佳平衡点。

https://mp.weixin.qq.com/s/qhzNcZeao7_wQ225lc8RUg

MiniMax 闫俊杰：今天的 AI 应用都不会成为 Super App，但这不重要

和多数人一样，在看到 OpenAI 最新发布的「AI 智能助手」GPT-4o 时，MiniMax创始人兼 CEO 闫俊杰的第一感觉是「惊艳」。他也为那些演示效果着迷，如丝滑的语音交互、实时的视觉理解、语言捕捉甚至包括了「呼吸声」MiniMax 是行业少有的同时做模型、产品的公司。目前，MiniMax 是国内 AI 产品做得最出色的公司之一。其产品主要分为两类：一是「星野」代表的娱乐类，对标 Character.AI，目前处于国内领先位置；一是「海螺 AI」代表的效率类，对标 ChatGPT，尚在起步阶段、但是他目前最看重的产品。尽管 AI 在过去一年多引起了全球广泛关注，但它距离为普通人所用的未来还很遥远。闫俊杰做了一个演算，目前国内最好的效率类产品 DAU 只有 400 万、国外是 1000 万，这意味着 AI 在移动端的渗透率可能不到 1%。从业者们要做的努力还有很多。

https://mp.weixin.qq.com/s/G5JBvNNwcqA4ICglY5Py3Q

李飞飞亲自撰文：大模型不存在主观感觉能力，多少亿参数都不行

近段时间，李飞飞开始把目光瞄准到这一领域，并为此创建了一家初创公司。她曾表示，「大自然创造了一个以空间智能为动力的观察和行动的良性循环。」她所在的斯坦福大学实验室正在尝试教计算机「如何在三维世界中行动」，例如，使用大型语言模型让一个机械臂根据口头指令执行开门、做三明治等任务。近日，李飞飞连同斯坦福大学以人为本人工智能研究所 HAI 联合主任 John Etchemendy 教授联合撰写了一篇文章，文章对 AI 到底有没有感觉能力（sentient）进行了深入探讨。

https://mp.weixin.qq.com/s/bzVWXFtk0YurG4NjFS3r0g

通用世界模型问世：不学习就能生成新领域视频，可实时控制

随着 OpenAI 今年 2 月发布 Sora，世界模型（World Model）再次成为了 AI 领域的热门。世界模型，即通过预测未来的范式对数字世界和物理世界进行理解，一直以来被认为是通往通用人工智能（AGI）的关键路径之一，与当前大模型推崇的智能体（Agent）方向互相区分。世界模型的研究促进了交互式内容的创建，并为有根据的、长期的推理提供了基础。当前的基础模型并不能完全满足通用世界模型的功能——大型语言模型（LLM）受到对语言模态的依赖以及对物理世界有限理解的限制，而视频模型（如 Sora）则缺乏对世界模拟的交互式动作控制。在 UC San Diego、穆罕默德・本・扎耶德人工智能大学（MBZUAI）等机构的最新研究中，人们通过引入 Pandora向构建通用世界模型迈出了一步。

https://mp.weixin.qq.com/s/Vj2W3BtKITV4mxwVhDJHzg

从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐

在 AI 领域，扩展定律（Scaling laws）是理解 LM 扩展趋势的强大工具，其为广大研究者提供了一个准则，该定律在理解语言模型的性能如何随规模变化提供了一个重要指导。但不幸的是，扩展分析在许多基准测试和后训练研究中并不常见，因为大多数研究人员没有计算资源来从头开始构建扩展法则，并且开放模型的训练尺度太少，无法进行可靠的扩展预测。来自斯坦福大学、多伦多大学等机构的研究者提出了一种替代观察法：可观察的扩展定律（Observational Scaling Laws），其将语言模型 (LM) 的功能与跨多个模型系列的下游性能联系起来，而不是像标准计算扩展规律那样仅在单个系列内。该方法绕过了模型训练，而是从基于大约 80 个公开可用的模型上建立扩展定律。但这又引出了另一个问题，从多个模型族构建单一扩展定律面临巨大的挑战，原因在于不同模型之间的训练计算效率和能力存在很大差异。

https://mp.weixin.qq.com/s/D8yx5Ma38TXjV3Yepa1_Sg

腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源

以 OpenAI 的 GPT 系列模型为代表的大语言模型（LLM）掀起了新一轮 AI 应用浪潮，但是 LLM 推理的高昂成本一直困扰着业务团队。腾讯 PCG 机器学习平台中心自研了高性能 LLM 推理引擎：一念 LLM。在传统的算子融合，ContinousBatching 等推理加速技术的基础上，通过显存优化，异步调度和计算复用等技术，在相同精度的推理中，一念 LLM 相比 vLLM，TensorRT-LLM 等著名开源框架的推理单价低 20%+。

https://mp.weixin.qq.com/s/rlyJwaOfDfNYMZEH7kfKGA

Meta 将推出付费版聊天机器人Meta AI，今年或投入400亿美元用于AI技术研发

据媒体报道称，Facebook和Instagram的母公司Meta Platforms正在考虑向用户收取更高级版本的人工智能助手费用，该助手被称为Meta AI。谷歌、微软、OpenAI和Anthropic通过其聊天机器人收取每月20美元的订阅费。订阅后，人们可以在微软 Word 等工作场所应用中使用这些公司的聊天机器人，并在使用率高时获得优先访问权等。目前尚无法得知 Meta 高级版可能提供的功能，以及 Meta 可能收取的费用。它的计划可能会改变。

https://mp.weixin.qq.com/s/XoynQI-uKnrAK1jo2qsdXQ

推特

LeCun: 为什么自回归的大型语言模型（LLM）不足以达到人类水平的智能

这是一篇发表在《金融时报》的精彩文章，我在其中解释了为什么自回归的大型语言模型（LLM）不足以达到人类水平的智能（甚至猫的智能水平）。

但是，我称之为“目标驱动”的替代架构有朝一日可能达到人类水平的智能。这些架构使用基于JEPA（联合嵌入预测架构，这种架构不是生成式的）的世界模型。有了这些，我们可能拥有的系统能够：

理解物理世界；
拥有持久的记忆；
能够进行推理；
可能层级化地进行计划。

这四个特性是智能行为所必需的，人类和许多动物都表现出这些特性。

金融时报

Yann LeCun 表示，他正在努力开发全新一代的人工智能系统，希望这些系统将赋予机器人类水平的智能。他在接受《金融时报》采访时表示，实现这一目标可能需要长达10年的时间。访问链接：https://on.ft.com/3KbShLF

https://x.com/ylecun/status/1793680385403957295

Unsloth更新，现在支持 Phi-3 Mini 和 Medium，通过Mistral化，可以将它们微调速度提高1.85倍

Unsloth 现在支持 Phi-3 Mini 和 Medium！我们对其进行了“mistral化”，你可以将它们微调速度提高1.85倍，同时使用的显存减少50%，比 HF+FA2 更高效。

@UnslothAI 的新版本还大大改善了 Llama-3 的微调效果。为什么？

双BOS常见 – 我们会自动修复这个问题；
GGUF 转换修复，现在可以正常工作；
Llama-3 基础中的未训练的错误标记 – 我们可以检测并用平均值填充。

我们还发布了更新的 Colab，可以让 Llama-3 Instruct 微调速度提高2倍，使用的显存减少70%：https://colab.research.google.com/drive/1XamvWYinY6FOSX9GLvnqSjjsNflxdhNc?usp=sharing

以及 Llama-3 Base：https://colab.research.google.com/drive/135ced7oHytdxu3N2DNe1Z0kqjyYIkDXp?usp=sharing

https://x.com/danielhanchen/status/1793762458437578955

Pietro Schirano分享Demo二代：选择我们的第一个宝可梦！Gemmini Flash助力，显著改善延迟

我们都有过这样的经历，选择我们的第一个宝可梦。

现在，多亏了 Gemini Flash，这个过程变得更简单了。

感谢 @elevenlabsio 提供我他们新的2.5 Turbo模型的早期访问权限。

它显著改善了我上次演示的延迟。⚡️

Gemini Flash 对游戏有很好的了解，并能实时提供反馈。战斗中玩起来真的很有趣。

另外，请忽略我对宝可梦的发音。我是意大利人，对我们来说它们的发音都不同。我被取笑了，哈哈。

https://x.com/skirano/status/1793753582241452032

Cohere Aya 23: 8B 和 35B 指导模型，支持23种语言

Cohere 再次交付成果！欢迎 Aya 23！🚀

8B 和 35B 指导模型
多语言（支持23种语言）
强大的基准测试结果

报告：https://drive.google.com/file/d/1YKBPo61pnl97C1c_1C2ZVOnPhqf7MLSc/view

开放模型：https://huggingface.co/CohereForAI

演示：https://huggingface.co/spaces/CohereForAI/aya-23

https://x.com/osanseviero/status/1793644453007155451

Ideogram Tile：通过单一的文本提示创建无缝重复的图案。制作壁纸、无尽的纹理、沉浸式风景等

今天，我们推出了 Ideogram Tile。

通过单一的文本提示创建无缝重复的图案。制作壁纸、无尽的纹理、沉浸式风景等。

Ideogram Tile 让您可以从不同的平铺模式中选择，包括网格、垂直砖块、水平砖块、行和列。

现已在 http://ideogram.ai 上为 Ideogram Basic、Plus 和 Pro 提供。

https://x.com/ideogram_ai/status/1793696748814160271

畅想未来！BrainBridge：展示未来可能的医疗机器人和外科手术的视频

BrainBridge

这是一个展示未来可能的医疗机器人和外科手术的视频，该手术将利用人工智能和机器人技术移植整个头部。

我们只需要培养人体，然后将我们的头部移植到新的年轻克隆体上。

https://x.com/LinusEkenstam/status/1793260089521967485

产品

opinion stage AI

Opinion Stage AI 是由 Opinion Stage 推出的一款工具，它可以将乏味的测验、表单和调查转变为互动性强的视觉体验。这是一个无代码工具，能快速创建提高转化率的测验、表单和调查，并且可以进行全面定制和品牌化，使其独具特色。

https://www.opinionstage.com/

Starsearch

StarSearch 是 OpenSauced 的一项 AI 驱动的功能，它能深入洞察贡献者的历史和活动，为开源项目带来透明度和关于其的新深度知识。它可以帮助追踪开源项目中有影响力的开发者、发现新的开源项目以及确定下一批核心贡献者等。

https://app.opensauced.pizza/star-search

投融资

Orca AI获2300万美元融资，加速自主航运创新

自主航运初创公司Orca AI宣布获得2300万美元融资，由OCV Partners和MizMaa Ventures领投。这笔资金将用于扩大规模和拓展业务，并投资于构建新产品。该公司通过处理多源视觉信息，在海上导航过程中保持船只航向，让船员能够监视航行的其他方面。创立于2018年底的Orca AI于2021年正式推出其AI导航技术商业化，并进行了1300万美元的A轮融资。据称，其系统准确度高，能够显著减少海上的危险事件和燃油消耗。该公司的愿景是建立一个服务船只的平台，通过优化和自动化航行的各个环节来提高安全性、降低燃油消耗和排放，以及增加预计到达时间的准确性。

公司官网：https://www.orca-ai.io/

https://techcrunch.com/2024/05/23/autonomous-shipping-startup-orca-ai-tops-up-with-23m-led-by-ocv-partners-and-mizmaa-ventures/

英国金融科技初创公司 Viable 获得 280 万欧元投资，帮助中小企业商户应对财务困境

Viable 是一家位于伦敦的智能金融平台，为直销 (D2C)、多渠道和批发商务品牌设计。他们宣布完成 240 万英镑（约合 280 万欧元）的种子轮融资。投资方包括 Episode 1、Haatch、Portfolio Ventures，以及一群由 Internet Fusion 前创始人兼 CEO Martin Brailsford 领导的天使投资者。Viable 旨在简化金融运营，并优化下一代在线和多渠道销售者的营运资本。他们利用最近的开放银行、支付和人工智能基础设施发展了垂直化的金融技术，以使金融任务更容易，帮助企业更好地利用资金。公司计划利用种子资金加速嵌入式金融产品的开发，提高商家的可访问性。

公司官网：https://www.runviable.com/