大模型日报（五一特刊 5月1-5日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

斯坦福李飞飞首次创业：学术休假两年，瞄准「空间智能」

没想到，在大模型时代，知名「AI 教母」李飞飞也要「创业」了，并完成了种子轮融资。据路透社独家报道，著名计算机科学家李飞飞正在创建一家初创公司。该公司利用类似人类的视觉数据处理方式，使人工智能能够进行高级推理。知情人士透露称，李飞飞最近为这家公司进行了种子轮融资，投资者包括硅谷风险投资公司 Andreessen Horowitz，以及她去年加入的加拿大公司 Radical Ventures。不过，Andreessen Horowitz 和 Radical Ventures 的发言人均对此保持沉默，李飞飞也未作回应。

https://mp.weixin.qq.com/s/tffXMdimm7UxSBy1yZEHvw

瑜伽球上遛「狗」！入选英伟达十大项目之一的Eureka有了新突破

DrEureka 是基于 Eureka 完成的，后者还被评为 2023 年英伟达十大项目之一。这项研究由宾夕法尼亚大学、 NVIDIA 、得克萨斯大学奥斯汀分校的研究者联合打造，并且完全开源。他们提出了 DrEureka（域随机化 Eureka），这是一种利用 LLM 实现奖励设计和域随机化参数配置的新型算法，可同时实现模拟到现实的迁移。该研究展示了 DrEureka 算法能够解决新颖的机器人任务，例如四足机器人平衡和在瑜伽球上行走，而无需迭代手动设计。

https://mp.weixin.qq.com/s/GTk6kvJmzA_073otPUScjg

告别偏科，能玩转多模态、多任务、多领域的强化智能体终于来了

来自 Hugging Face、法国国家信息与自动化研究所（INRIA）和波尔多大学的四位研究者提出了智能体中的「六边形战士」——Jack of All Trades (JAT)。JAT 是一个基于 Transformer 的多模态通用强化学习智能体框架。在此框架下，智能体能够通过同一套参数应对不同复杂度的多种任务，化身既会打游戏，又能控制机器人的全能高手。论文同时发布了大量 RL 智能体与 JAT 数据集。这是首个用于通用智能体训练的数据集 JAT 数据集，包含了由专家智能体收集的数十万条轨迹。

https://mp.weixin.qq.com/s/2GBB-w7hBf6equtqD8V0Lg

12年前上手深度学习，Karpathy掀起一波AlexNet时代回忆杀，LeCun、Goodfellow等都下场

没想到，自 2012 年 AlexNet开启的深度学习革命已经过去了 12 年。而如今，我们也进入了大模型的时代。近日，知名 AI 研究科学家 Andrej Karpathy的一条帖子，让参与这波深度学习变革的许多大佬们陷入了回忆杀。从图灵奖得主 Yann LeCun 到 GAN 之父 Ian Goodfellow，纷纷忆往昔。到目前为止，该帖子已经有 63 万 + 的浏览量。

https://mp.weixin.qq.com/s/E8XvMGojDzFeyKg_qu4acg

Anthropic 终于推出企业版以及 iOS 应用！全面对标 OpenAI

Anthropic 正在推出一项针对企业的新付费计划，其中包括医疗保健、金融和法律等受到高度监管的行业，该计划名为“Team”，为客户提供对 Anthropic 的 Claude 3 系列生成型 AI 模型以及额外的管理员和用户管理控制的更高优先级访问权限。

https://mp.weixin.qq.com/s/JKXoHkg89aXzVlIlA0Q8nA

Perplexity CTO 最新复盘：软件利润开始变厚，不排除广告收入，但 Perplexity 可能不会像谷歌那样成功

Perplexity CTO Denis Yarats 在近期向投资人分享了 Perplexity 产品演变、AI 技术以及商业模式的思考。Denis 谈到，Perplexity 当前的订阅是主要模式，未来肯定会有其他的东西，但现在看来实际利润也是相当不错。Denis 和团队观察到，过去一年中运行这些模型变得更加便宜，硬件也变得更便宜，模型变得更小更好，即使高 API 价格也降低了，过去一年中降了四五次，然后 Perplexity 内部也建立了一些东西，不必像以前那样过多地依赖 OpenAI API ，随着时间推移 Perplexity 利润正在增加。他表示，Perplexity 仍然会有其他的机会来实现盈利，不排除广告，但像 Google 现在所做的广告形式可能不是我们要做的。可以通过有效方法让广告成为对用户有益的方式，如果广告有帮助的话，人们其实并不介意广告。

https://mp.weixin.qq.com/s/ursDVU9_4y3Rekx66vOUFw

爆款生成式AI硬件，销量突破10万台，拆完一看只是安卓app？

美国记者 Mishaal Rahman 曝光了知名生成式 AI 硬件 Rabbit R1 的细节，立即引来了科技圈的关注。几个月前，Humane、Rabbit 两家初创公司陆续推出他们的人工智能设备 ——Ai Pin 和 Rabbit R1。最初，一些人认为这些设备将开创可穿戴人工智能的新时代。然而，几个月过去了，对于这两款设备的争议逐渐增多。Rabbit R1 首次亮相是在 CES 2024 上，它是一款手掌大小的 AI 智能设备，售价 199 美元。其背后的研发公司 Rabbit 致力于基于大型行为模型（Large Action Model, LAM）研发下一代操作系统。

https://mp.weixin.qq.com/s/7DIN7q3xqTtXQjwJw8EbcA

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据，从而指导其行为决策。近期，将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展，但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。在最近的一篇论文中，研究者提出了一种专为 AI 应用设计的多模态模型，引入了「functional token」的概念。为确保该模型能兼容边缘设备，研究者将其参数量优化至 10 亿以内。与 GPT-4 类似，该模型能同时处理英文和中文。实验表明，该模型能在包括树莓派等各类资源受限的终端设备上高效运行。

https://mp.weixin.qq.com/s/mUpX-nvo221WVii-gnjUmQ

推特

Karpathy：大型语言模型终将在太空中运行

显然，大型语言模型（LLM）终将在太空中运行。

步骤1：我们会加强 llm.c 代码，使其通过 NASA 的代码标准和风格指南，证明代码极为安全，足以在太空中运行。LLM 的训练/推断原则上应该非常安全——它只是一个固定的浮点数组，以及一个有界、明确定义的动态循环。没有必要以不确定的方式增长或缩小内存，也无需递归或类似的东西。

步骤2：我们已经向太空发送了信息，可能被外星人接收，例如：

阿雷西博信息，传送到太空：

https://en.wikipedia.org/wiki/Arecibo_message

旅行者金唱片，附加在探测器上：

https://en.wikipedia.org/wiki/Voyager_Golden_Record

三体问题（好吧，这是个不好的例子）

但我们不是发送任何固定的数据，而是可以发送封装在 llm.c 二进制文件中的 LLM 权重，以及机器代码的指令。这样，LLM 就会“苏醒”并代表人类与外星人互动。或许有一天，我们会发现外星人的 LLM，而不是他们直接出现。LLM可能会彼此找到。我们必须确保代码非常好，否则那会相当尴尬。

:) 步骤2显然不是一个严肃的提议，只是觉得有趣而已。步骤1是一个严肃的提议，因为显然，LLM 终将在太空中运行。

https://x.com/karpathy/status/1786085254006202541

Jim Fan：三种类型的大型语言模型评估

学术基准正在失去其效力。展望未来，有三种类型的大型语言模型（LLM）评估至关重要：

私有测试集但公开报告成绩，由一个不推广自己的LLM的可信第三方进行。@scale_AI 的最新 GSM1k 就是一个很好的例子。他们是一个公正无偏的中立方，确保测试数据不会泄露到任何人的训练中。
公开的比较基准，如 @lmsysorg 聊天机器人竞技场，以ELO分数报告。你不能操纵民主。
每个公司为自己的用例精心策划的私人基准。你不能操纵你的客户。

https://x.com/DrJimFan/status/1786054643568517261

苹果或将推出人工智能功能，随iphone16发布

根据《华盛顿邮报》的报道，苹果公司首席执行官蒂姆·库克预计将在下周的“放手一搏”活动中对即将推出的人工智能功能进行“暗示”。尽管新款iPad是活动的主焦点，但苹果可能利用此机会初步概述新的AI功能。这些功能预计将在6月的全球开发者大会（WWDC）上详细介绍并随新一代iPhone 16系列和iOS 18一起发布。此外，苹果将其5月7日的主题演讲描述为“一种不同类型的活动”，这进一步增加了对新AI功能预览的期待。

https://9to5mac.com/2024/05/02/tim-cook-apple-ai-features

Google AI：扩展层次聚类算法以处理万亿边的图

图聚类将相似的项目合并成组，以更好地理解数据中的关系。今天，阅读我们最近的研究成果，包括使我们能够扩展高质量算法的关键技术，该算法可以聚类具有万亿边的图。阅读更多 → https://goo.gle/3y1iXMs

我们描述了一系列关于构建更具可扩展性的图聚类的最近工作，最终在我们的论文“TeraHAC：万亿边图的层次聚类”中达到高潮。我们讨论了这项工作背后的一些关键思想，并解释了如何扩展一个高质量的聚类算法，使其能够处理万亿边的图。

https://x.com/GoogleAI/status/1785763979748601888

Chip Huyen：开源模型和商业模型时需要考虑的事项

我正在列出在使用开源模型和商业模型时需要考虑的事项。还有什么我应该添加的吗？

商业模型：

数据隐私：员工可能会在提示中无意中包含机密信息，例如当三星员工使用ChatGPT泄露公司机密时。
功能性：商业模型更有可能支持函数调用和JSON模式。然而，大多数模型提供商没有或只有限制的提供 logprobs API。Logprobs 对于分类任务、置信度评分和可解释性很有用。
API成本：大规模时API调用可能变得昂贵。
微调：模型提供商可能不允许你对他们的模型进行微调。现成的商业模型可能更适合你的使用案例，但可能不如开源+微调好。
控制和透明度：在模型更改、版本和路线图方面缺乏透明度。有一天你的提示可能无法按预期工作，而你不知道为什么。模型提供商可以决定停用你正在使用的模型，你需要时间适应新模型。
边缘使用案例：无法在没有互联网连接的设备上工作。

开源模型：

数据来源/版权：人们不太可能因为在受版权保护的数据上训练而起诉开源模型构建者。然而，如果你使用这些模型赚钱，你可能会遇到麻烦。
功能性：托管你的模型可以让你访问logprobs和其他中间输出。有些外部工具为某些开源模型提供函数调用和受限采样，但这些功能可能有限。
工程成本：托管、优化和维护大型模型需要不小的时间、才能和努力。如果支持你想使用的模型，这可以通过使用模型托管服务来缓解。
微调：理论上，你可以对开源模型进行微调，但这可能不容易做到。

https://x.com/chipro/status/1785712999988408505

Raschka分享笔记本代码：微调一个小型GPT模型，以约96%的准确率分类垃圾信息

如果你这个周末想找点东西来编程和阅读，我上传了一个笔记本，用于微调一个小型GPT模型，以约96%的准确率分类垃圾信息：https://github.com/rasbt/LLMs-from-scratch/blob/main/ch06/01_main-chapter-code/ch06.ipynb

（有趣的事实：它足够小，可以在你的笔记本电脑上训练；在我的M3 MacBook Air上大约需要5分钟！）

https://x.com/rasbt/status/1786734772250673256

大型科技公司2023年的人工智能投资图表

大型科技公司全力投入人工智能。

由美国大型科技公司及其风险投资部门支持的人工智能初创企业的交易数量同比增长了57%。

大型科技公司2023年的人工智能投资：

https://x.com/chiefaioffice/status/1786545556845666372

产品

Loom AI

Loom AI 是 Loom 推出的一项新功能，利用视频转文字的技术，能够帮助用户快速将 Loom 视频转换成可共享的文档、工单或消息。它支持常见的工作流程，如报告 bug、记录流程、制作操作指南等，大大提高了工作效率，让技术团队有更多时间专注于产品开发。Loom AI 还与第三方工具如 Jira 集成，能够自动将视频内容直接生成相应的工单，为用户节省了大量手工操作的时间和精力。

https://www.loom.com/ai

Mindtrip

Mindtrip 是一个集灵感、规划、预订和管理于一体的智能旅行平台，利用人工智能技术为用户提供个性化的旅行体验，包括根据个人偏好推荐目的地和行程、实时协作规划、一站式管理旅行信息等功能，力求让整个旅行过程更简单高效。

https://mindtrip.ai/

Claude for ios

Claude 宣布推出全新的 iOS 应用程序，以满足客户的强烈需求，让 Claude 服务变得更加便捷易用。这款 iOS 应用与网页版保持一致的使用体验，并支持跨设备聊天同步，向所有用户免费开放。

https://www.anthropic.com/claude

WIZPR RING

WIZPR RING 是一款智能 AI 戒指，通过结合可穿戴设备和语音交互技术，为用户提供更加私密、自然的AI使用体验。它可以让用户在公共场合通过低语的方式与 AI 交互，避免了大声说话引起注意的问题。同时它还能与各类智能家居设备实现兼容和控制，为用户带来更加智能便捷的生活。

https://www.kickstarter.com/projects/vtouch/whsp-ring-voice-chat-with-ai

Otterly AI

Ottrtly AI 是一个新兴的品牌监测工具，旨在帮助营销人员应对AI聊天机器人时代的新挑战。随着越来越多人开始使用 Bard、Gemini 等 AI 搜索助手，传统的 Google 搜索监测已经成为一个盲点。这个产品可以跨 GPT、Gemini、Bing Copilot 等主流 AI 助手，监控品牌在这些对话型搜索中的提及情况，让营销团队能够更好地了解并提高在新兴AI渠道的曝光度，开启 AI 时代的 SEO 新纪元。

https://otterly.ai/

WaxWing

Waxwing 是一个以 AI 为驱动的全方位营销平台，旨在帮助营销团队大幅提升效率和生产力。它不仅提供了多达 500+ 经过验证的个性化营销策略，还能自动生成详细的执行计划，并配有智能助手随时提供支持。通过整合各种数据源， Waxwing 为用户打造了一个协作的项目管理中心，让营销工作变得更加流畅高效。这个平台主要瞄准中小企业和独立营销人员，希望能帮助他们更好地融合 AI 技术，实现业务增长。

https://www.waxwing.ai/

Pressmaster.ai

Pressmaster.ai 是一个基于人工智能的公关服务平台，旨在通过技术手段来帮助企业提高公关效率和营销成果。它可以自动生成独特的文章内容，提供全球新闻源，简化新闻发布流程，并且可以追踪文章表现数据。此外，它还集成了记者源和调查链接等创新功能，帮助企业与媒体建立更好的联系。

https://www.pressmaster.ai/

Synthesia

Synthesia 是一家利用人工智能技术进行内容创作的公司，其主要产品包括 AI 视频生成器和新推出的富有表现力的 AI 头像。这些工具可以自动化和智能化地生成视频、头像等内容，赋予虚拟人物丰富的表情和情感表达，大大提高了内容创作的效率。

https://www.synthesia.io/avatars

投融资

Lamini筹集2500万美元以帮助企业内部开发顶级LLM

Lamini是一个专为企业打造的AI平台，使企业内部的软件团队能够开发新的LLM功能，以减少基于专有数据的幻觉问题，从云VPC到本地安全运行他们的LLM，并通过模型评估扩展其基础设施，这些评估优先考虑投资回报率和业务成果而非炒作。Lamini在其最近的A轮融资中筹集了2500万美元，该轮融资由Amplify Partners领投，其他投资者包括First Round Capital、Andrew Ng和Andrej Karpathy等在AI、技术和企业领域的著名投资者。此次资金将加速Lamini在技术优化和团队扩展方面的发展，以更好地服务于全球企业客户，特别是那些需要在安全和合规性要求极高的环境中利用其专有数据的企业。

公司官网：https://www.lamini.ai/

https://www.lamini.ai/blog/series-a

Allozymes通过其加速酶学技术进行数据和AI方向的运用，筹集1500万美元

Allozymes开发了一种能够每天快速测试数百万种生物化学反应的方法，这不仅是一个有用的服务，还为公司创造了一个独特且有价值的数据集。Allozymes最近完成了1500万美元的A轮融资，以将其业务从有用的服务转变为世界级资源。该公司利用其独特的微流体系统，能够在合理的实验室空间内每天测试数百万种酶，远超传统方法。此轮融资包括Seventure Partners、NUS Technology Holdings、Thia Ventures和ID Capital等新投资者，以及Xora Innovation、SOSV、Entrepreneur First和Transpose Platform等老投资者的再次投资。