大模型日报（5月11~12日资讯篇）

特别活动

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

百万tokens低至1元！大模型越来越卷了

在刚刚举行的 ICLR 2024 大会上，智谱AI的大模型技术团队公布了面向激动人心的AGI通用人工智能前景的三大技术趋势，同时预告了GLM的后续升级版本。今天，智谱大模型开放平台（bigmodel.cn）上线了新的价格体系。入门级产品 GLM-3 Turbo 模型调用价格下调80%！从5元/百万tokens降至1元/百万tokens。1元可以购买100万tokens。调整后，使用GLM-3 Turbo创作一万条小红书文案（以350字计）将仅需约1元钱，足以让更多企业和个人都能用上这款入门级产品。

https://mp.weixin.qq.com/s/42hA4Ggzu_p4Iqk8yr4VAQ

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈论文

Richard Sutton在「The Bitter Lesson」中做过这样的评价：「从70年的人工智能研究中可以得出的最重要教训是，那些利用计算的通用方法最终是最有效的，而且优势巨大。」自我博弈（self play）就是这样一种同时利用搜索和学习从而充分利用和扩大计算规模的方法。今年年初，加利福尼亚大学洛杉矶分校（UCLA）的顾全全教授团队提出了一种自我博弈微调方法 (Self-Play Fine-Tuning, SPIN)，可不使用额外微调数据，仅靠自我博弈就能大幅提升 LLM 的能力。最近，顾全全教授团队和卡内基梅隆大学（CMU）Yiming Yang教授团队合作开发了一种名为「自我博弈偏好优化（Self-Play Preference Optimization, SPPO）」的对齐技术，这一新方法旨在通过自我博弈的框架来优化大语言模型的行为，使其更好地符合人类的偏好。左右互搏再显神通！

https://mp.weixin.qq.com/s/ulVGoBkCtFyV_mwSBdzgQg

DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩

今年 2 月初，Sora 的发布让 AI 社区更加看到了基础扩散模型的潜力。连同以往出现的 Stable Diffusion、PixArt-α 和 PixArt-Σ，这些模型在生成真实图像和视频方面取得了显著的成功。这意味着开始了从经典 U-Net 架构到基于 Transformer 的扩散主干架构的范式转变。值得注意的是，通过这种改进的架构，Sora 和 Stable Diffusion 3 可以生成任意分辨率的样本，并表现出对 scaling 定律的严格遵守，即增加参数大小可以实现更好的结果。不过，推出者们只对自家模型的设计选择提供有限的指导，并且缺乏详细的实现说明和公开的预训练检查点，限制了它们在社区使用和复刻方面的效用。并且，这些方法是针对特定任务（例如图像或视频生成任务）量身定制的，这阻碍了潜在的跨模态适应性。为了弥补这些差距，上海 AI Lab、港中文和英伟达的研究者联合推出了 Lumina-T2X 系列模型，通过基于流（Flow-based）的大型扩散 Transformers（Flag-DiT）打造，旨在将噪声转换为图像、视频、多视图 3D 对象和基于文本描述的音频。其中，Lumina-T2X 系列中最大的模型包括具有 70 亿参数的 Flag-DiT 和一个多模态大语言模型 SPHINX。SPHINX 是一个文本编码器，它具有 130 亿参数，能够处理 128K tokens。

https://mp.weixin.qq.com/s/NwwbaeRujh-02V6LRs5zMg

从零开始手搓GPU，照着英伟达CUDA来，只用两个星期

总有人说老黄的芯片供不应求，大家恨不得去手搓 GPU，现在真的有人试了。近日，美国一家 web3 开发公司的创始工程师之一 Adam Majmudar 分享了他「手搓 GPU」成功的经历，引发了网友们的一大片点赞。令人惊讶的是，他仅用两周时间就完成了这一脑力壮举。在 Twitter/X 的主题帖子中，Majmudar 进行了直播，一步步带我们回顾了整个过程。

https://mp.weixin.qq.com/s/gDWQGs4MyVWqsmONdEqvpQ

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。最近，许多机构在训练 SOTA生成式 AI 模型时报告了训练过程中的不稳定情况，它们通常以损失尖峰的形式出现，比如谷歌的 PaLM 模型训练过程中出现了多达 20 次的损失尖峰。数值偏差是造成这种训练不稳定性的潜在原因，由于大语言模型训练运行成本极高，如何量化数值偏差俨然成为关键问题。在最新的一项工作中，来自 Meta、哈佛大学的研究者开发了一个原则性定量方法来理解训练优化中的数值偏差，以此评估不同的最新优化技术，并确定它们在用于训练大模型时是否可能引入意外的不稳定性。

https://mp.weixin.qq.com/s/sG3JaZR1isZApWP6ZkYe6Q

博弈论让 AI 更加正确、高效，LLM 与自己竞争

想象一下，你有一位朋友对同一问题给出了不同的答案，具体取决于你提问的方式。「秘鲁的首都是哪里？」会得到一个答案；「利马是秘鲁的首都吗？」会得到另一个。你可能会有点担心你朋友的智力，而且你几乎很难相信他们给出的任何答案。这正是许多大型语言模型 (LLM) 正在发生的事，这些超强大的机器学习工具为 ChatGPT和其他人工智能奇迹提供了动力。开放式的生成性问题会产生一个答案，而涉及必须在选项之间进行选择的判别性问题，通常会产生不同的答案。麻省理工学院的博士生 Athul Paul Jacob 表示：「当同一个问题的措辞不同时，就会出现脱节。」为了使语言模型的答案更加一致，并使模型整体更加可靠，Jacob 和他的同事设计了一个游戏，在这个游戏中，模型的两种模式被驱使着去寻找他们能达成一致的答案。这个简单的程序被称为共识博弈（consensus game），让 LLM 与自己竞争，使用博弈论工具来提高模型的准确性和内部一致性。

https://mp.weixin.qq.com/s/gMUE2eg_B_jl5wCZpQlvjw

HeyGen 创始人对话硅谷投资人 Sarah Guo：SaaS 十倍增长背后，Bootstrapping 还是拿融资

这是 HeyGen创始人 Joshua Xu 与硅谷知名投资人 Sarah Guo和 Pilot CEO Waseem Daher 最新对谈。HeyGen 在 3 月底完成 BechMark 领投的 6000 万美元融资，最新估值 4.4 亿美元。Joshua Xu 是 HeyGen 创始人，此前是 Snapchat 担任工程负责人，在 2014 年到 2020 年从事了很多工作，包括广告技术、推荐系统和 AI 驱动的相机技术。2020 年，他创立了 HeyGen ，旨在通过先进的 AI 生成技术改变视觉叙事。Sarah Guo 是 Conviction 的创始人，专注于投资智能软件，Conviction 也是 HeyGen 的早期投资方。Sarah Guo 此前在 Greylock 担任多年合伙人，是软件、金融科技、安全、基础设施、基础研究和 AI Native应用领域 40 多家公司的早期投资者或顾问之一。

https://mp.weixin.qq.com/s/vRb4fvB08lKcPEBxQUen6g

推特

Anthropic控制台中现在可以生成提示语啦！

你现在可以在Anthropic控制台中生成可用于生产环境的提示语。

描述你想要实现的目标，Claude将使用提示工程技术，如思维链推理，来创建更有效、更精确和更可靠的提示语。

Ethan Mollick: 对大多数人来说，提示工程正在消失，这是众多迹象中的最新一个：像其他一些AI公司一样，Anthropic发布了一个自动为你基于意图生成好的提示的工具。它工作得相当好！

https://x.com/AnthropicAI/status/1788958483565732213

Jim Fan分享思考：我们学习主流神经网络的像素到大脑会怎么样？我们能否拦截人类计算的“思维链”信号？

神经连接最近取得的成就给了我一个奇特的新想法去训练人工智能。下面是一个人仅凭思考就能以不合理的高速度和精确度控制鼠标。信息流看起来像是屏幕像素 -> 生物神经网络 -> 由人工神经网络转换 -> 连续的鼠标动作。

我训练了许多AI代理去玩游戏和控制浏览器。这让我思考：

如果我们学习另一个神经网络去模仿流程的第一部分：像素 -> 大脑会怎样？

我们能否拦截人类计算的“思维链”信号？

如果我们使用模仿学习这些数据，我们不是能够模拟一些像意识这样难以捉摸的东西吗？

这是不是一个直接从人类内在思维学习智能的替代路径，而不是间接从我们的书面文本令牌学习？

我们能做到吗？是的，我相信现在技术上完全可行。只需要扩大规模。

我们应该做吗？

https://x.com/DrJimFan/status/1788955845096820771

谷歌在Hugging Face发布TimesFM权重

我们很高兴在Hugging Face上发布我们的时间序列基础模型（TimesFM）的权重！

要访问，请访问我们的

HuggingFace（https://huggingface.co/google/timesfm-1.0-200m）

GitHub（https://github.com/google-research/timesfm）

TimesFM是一个预测模型，预先在一个包含1000亿实际时间点的大型时间序列语料库上进行训练，它在不同领域和细粒度的多个公共基准测试中展示了令人印象深刻的零样本表现。了解更多 → https://goo.gle/480VRlm

https://x.com/GoogleAI/status/1788972685739114946

Yohei Nakajima: BabyAGI、人工智能代理与人工智能投资

未来将充满人工智能代理，但关于如何到达那里以及那个世界将会是什么样子，仍然有许多未解之谜… 🤖

我与Yohei Nakajima坐下来讨论了这个话题，这次对话非常有启发性，希望你喜欢：

Yohei Nakajima: BabyAGI、人工智能代理与人工智能投资 | 围绕提示符 #2

https://x.com/OfficialLoganK/status/1789330831321772420

Chip Huyen：人们没有花足够的时间评估他们的评估流程

我看到的一个关于人工智能系统的大问题是，人们没有花足够的时间评估他们的评估流程。

大多数团队使用多于一个的指标（通常是3-7个指标）来评估他们的应用程序，这是一个好的做法。然而，很少有人测量这些指标之间的相关性。

如果两个指标完全相关，你可能不需要两者都有。如果两个指标彼此强烈不同意，这要么揭示了你的系统的一些重要信息，要么就是你的指标不可靠。

许多人（我估计60 – 70%？）使用人工智能评估人工智能的回答，常见的标准包括简洁性、相关性、连贯性、忠实性等。我发现将人工智能作为评判者非常有前景，并期待将来看到更多这样的方法。

人工智能作为评判者的得分并不像分类F1分数或准确性那样是确定的。它们依赖于评判者的模型、评判者的提示以及使用案例。许多人工智能评判者表现出色，但也有许多表现不佳。

然而，很少有人进行实验来评估他们的人工智能评判者。好的回答是否得到了更好的评分？评分的可复制性如何——如果你问评判者两次，你会得到相同的分数吗？评判者的提示是否最佳？有些人甚至不知道他们的应用程序正在使用什么样的提示，因为他们使用的是评估工具或其他团队创建的提示。

还有一个昨天从一个（小规模）民意调查中学到的有趣事实：有些团队在评估回应上的花费比生成回应的花费还要多 🤯

https://x.com/chipro/status/1788972359900389475

Shunyu Yao分享博士论文答辩：《语言代理：从下一个词预测到数字自动化》

我已经成功答辩了我的博士论文！

《语言代理：从下一个词预测到数字自动化》

演讲（WebShop、SWE-bench、ReAct、ToT、CoALA以及关于代理未来的讨论）：https://youtube.com/watch?v=zwfE6J2BIR4
论文（内容更加全面）：https://ysymyth.github.io/papers/Dissertation-finalized.pdf

https://x.com/ShunyuYao12/status/1789058769982550031

谷歌深度学习 Chollet：深度学习模型不能解决训练分布之外的任务，“涌现学习”是不正确的

即使是相对资深的机器学习从业者也常常未能理解的一点是，深度学习模型是对数据分布进行的曲线拟合。你不能期望它们解决训练分布之外的任务（这种任务需要智能）。

“涌现学习”是一个不正确的标签——如果一个模型在它未经训练的任务A上表现出性能，这仅仅意味着A与你训练的所有数据之间有显著的重叠。能力并不是凭空出现的。

https://x.com/fchollet/status/1789082647375090040

产品

Wanderboat——你的私人定制旅行伙伴

Wanderboat 提供个性化的智能旅行服务。它可以根据用户的需求和喜好，量身定制景点、美食和活动等，并全天候提供旅行建议和支持。Wanderboat 被称为用户的 “24/7旅行伙伴” ，让每一次旅行都能如您所愿，充满独特的体验。通过这项服务，用户可以轻松规划和定制属于自己独特风格的旅行路线，快用它来策划您的下一次出游吧。