大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

大模型周报由大模型日报精选编辑而成，如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。

欢迎大家一起交流！

资讯

GPT-4时代已过？全球网友实测Claude 3，只有震撼

大模型的纯文本方向，已经卷到头了？昨晚，OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列 ——Claude 3。该系列包含三个模型，按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

其中，能力最强的 Opus 在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra，在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。Anthropic 表示，Claude 3 Opus 拥有人类本科生水平的知识。

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

https://mp.weixin.qq.com/s/zNX_7JoE9XRyAg_GCy85nA

消费级显卡可用！李开复零一万物发布并开源90亿参数Yi模型

李开复旗下AI公司零一万物，又一位大模型选手登场：90亿参数Yi-9B。它号称Yi系列中的“理科状元”，“恶补”了代码数学，同时综合能力也没落下。在一系列类似规模的开源模型（包括Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5等）中，表现最佳。老规矩，发布即开源，尤其对开发者友好：Yi-9B（BF 16）和其量化版 Yi-9B（Int8）都能在消费级显卡上部署。一块RTX 4090、一块RTX 3090就可以。

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

https://mp.weixin.qq.com/s/z6IFIuHawVZI6ZOfgvgKuA

一句话让图片动起来，苹果发力大模型动画生成，可直接编辑结果

现阶段，大模型惊人的创新能力持续影响着创意领域，尤其是以 Sora 为代表的视频生成技术，更是引领了新一代潮流。当大家都为 Sora 感到震撼的同时，或许苹果的这项研究也值得大家关注一下。在一篇名为「Keyframer: Empowering Animation Design using Large Language Models 」的研究中，来自苹果的研究者发布了一个可以利用 LLM 生成动画的框架 Keyframer，该框架允许用户采用自然语言提示来创建静态 2D 图像的动画。

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

https://mp.weixin.qq.com/s/S5g28EaWj6_IVSVyUkOcbg

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

遮挡是计算机视觉很基础但依旧未解决的问题之一，因为遮挡意味着视觉信息的缺失，而机器视觉系统却依靠着视觉信息进行感知和理解，并且在现实世界中，物体之间的相互遮挡无处不在。牛津大学 VGG 实验室 Andrew Zisserman 团队最新工作系统性解决了任意物体的遮挡补全问题，并且为这一问题提出了一个新的更加精确的评估数据集。该工作受到了 MPI大佬 Michael Black、CVPR 官方账号、南加州大学计算机系官方账号等在 X 平台的点赞。以下为论文「Amodal Ground Truth and Completion in the Wild」的主要内容。

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

https://mp.weixin.qq.com/s/8noggjgknHjNLlAkn7YfFA

Midjourney封禁Stability AI：恶意爬取数据，致服务器瘫痪24小时

Midjourney 把 Stability AI 拉入黑名单了，禁止后者+所有员工使用其软件，直至另行通知。这两家 AI 图像生成公司之间发生什么事了。虽然 AI 生图领域，看似百花齐放，但论资排辈，Midjourney、Stability AI 还是很受用户欢迎的。就算是竞争对手，Midjourney 也不至于禁止 Stability AI 员工使用其软件吧。事情是这样的，根据爆料者的信息显示：「Midjourney 服务器上周六凌晨受到与 Stability AI 数据收集工程师相关账户的严重攻击，这些账户正在大量爬取提示词和图像，导致 Midjourney 服务器 24 小时中断。

晚间时分，Midjourney 工程师首次对该帐户进行了标记，当时他们注意到该帐户正在试图获取网站内每个用户会员的所有提示词和图像。这些请求导致该公司的服务器不堪重负，部分数据库瘫痪了 24 小时。在禁止该帐户并进一步调查后，Midjourney 员工发现该帐户通过两张信用卡与 Stable Diffusion 团队的一位主要数据收集工程师相关联。作为回应，Midjourney 已决定禁止 Stability AI 的所有员工使用其软件，直至另行通知。」

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

https://mp.weixin.qq.com/s/mIdVdIHSJMLSGUxeGX3iTA

论文

ChatbotArena：一个通过人类偏好评估LLM的开放平台

大语言模型（LLMs）开启了新的能力和应用; 然而，评估与人类偏好的一致性仍然存在重大挑战。为了解决这个问题，我们引入了Chatbot Arena，一个基于人类偏好评估LLMs的开放平台。我们的方法采用逐对比较方法，并通过众包利用来自不同用户群体的输入。该平台已经运行了几个月，吸引了超过24万次投票。本文描述了这个平台，分析了我们迄今收集的数据，并解释了我们正在使用的经过验证的统计方法，以有效和准确地评估和排名模型。我们确认，众包问题足够多样化和歧视，众包人类投票与专家评分者的意见基本一致。这些分析共同为Chatbot Arena的可信度奠定了坚实的基础。由于其独特的价值和开放性，Chatbot Arena已成为最受引用的LLM排行榜之一，被领先的LLM开发者和公司广泛引用。我们的演示可以在url{https://chat.lmsys.org}公开获取。

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

http://arxiv.org/abs/2403.04132v1

Yi：01.AI 开放的基础模型

摘要：我们介绍了Yi模型系列，这是一组展示强大多维能力的语言和多模型。基于6B和34B预训练语言模型，我们扩展到聊天模型、200K长上下文模型、深度升级模型和视觉语言模型。我们的基础模型在MMLU等一系列基准测试中表现出色，微调后的聊天模型在AlpacaEval和Chatbot Arena等主要评估平台上获得了强大的人类偏好率。结合可扩展的超级计算基础设施和经典Transformer架构，我们认为Yi模型的性能主要归功于数据质量和数据工程。我们构建了3.1万亿个英语和中文语料库的预训练数据，通过级联数据去重和质量过滤管道。对于微调，在多次迭代中，我们精心打磨了不到10K的指导数据集，确保每个实例都得到我们的机器学习工程师的直接验证。对于视觉语言，我们将聊天语言模型与视觉Transformer编码器相结合，训练模型将视觉表示与语言模型的语义空间对齐。通过轻量级持续预训练将上下文长度扩展至200K，并展示了强大的大海捞针检索性能。我们发现通过持续预训练扩展预训练检查点的深度进一步提高了性能。我们相信，根据我们目前的结果，继续使用经过彻底优化的数据来扩展模型参数，将会产生更强大的前沿模型。

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

http://arxiv.org/abs/2403.04652v1

VisionLLaMA: 用于视觉任务的统一 LLAMA 接口

大型语言模型建立在基于Transformer的架构之上，用于处理文本输入。例如，LLaMA在许多开源实现中脱颖而出。同样的Transformer可以用于处理2D图像吗？本文通过揭示一种类似LLaMA的视觉Transformer，即VisionLLaMA，以平面和金字塔形式，特别为此目的而定制，回答了这个问题。VisionLLaMA是一个统一和通用的建模框架，用于解决大多数视觉任务。我们通过在大部分图像感知和特别是图像生成的下游任务中广泛评估其有效性。在许多情况下，VisionLLaMA相对于以前最先进的视觉Transformer取得了实质性的收益。我们相信VisionLLaMA可以作为视觉生成和理解的强大新基线模型。我们的代码将在https://github.com/Meituan-AutoML/VisionLLaMA上发布。

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

http://arxiv.org/abs/2403.00522v1

GaLore：通过梯度低秩投影实现内存高效的大语言模型训练

训练大型语言模型（LLM）存在显著的内存挑战，主要是由于权重和优化器状态的不断增大。通常的内存减少方法，如低秩适应（LoRA），在每一层的冻结预训练权重中增加一个可训练的低秩矩阵，减少可训练参数和优化器状态。然而，这些方法通常在预训练和微调阶段表现不佳，因为它们将参数搜索限制在低秩子空间，并改变训练动态，可能需要全秩热启动。在本研究中，我们提出了梯度低秩投影（GaLore），这是一种训练策略，可以进行全参数学习，但比常见的低秩适应方法如LoRA更节省内存。我们的方法在优化器状态上降低了高达65.5%的内存使用，同时在使用C4数据集上对LLaMA 1B和7B架构进行预训练，并对RoBERTa的微调在GLUE任务上进行了效率和性能测试，带有高达19.7B个token。我们的8位GaLore进一步将优化器内存降低了高达82.5％，总训练内存减少了63.3％，与BF16基准相比。值得注意的是，我们首次展示了在消费级GPU上（例如，NVIDIA RTX 4090）无需模型并行、检查点或卸载策略即可预训练7B模型的可行性。

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

http://arxiv.org/abs/2403.03507v1

人形智能体步行作为下一个 token 预测

我们将现实世界的人形控制问题视为一个下一个 token 预测问题，类似于在语言中预测下一个单词。我们的模型是通过自回归预测感知动作轨迹来训练的因果 Transformer。为了考虑数据的多模态性质，我们以模态对齐的方式进行预测，对于每个输入 token，从相同模态预测下一个 token。这个泛化的表述使我们能够利用缺少模态的数据，比如没有动作的视频轨迹。我们训练我们的模型在由先前神经网络策略、基于模型的控制器、动作捕捉数据和 YouTube 视频实现的轨迹集合上。我们展示了我们的模型使一个真人大小的人形能够在旧金山行走零-shot。我们的模型即使只使用了 27 小时的行走数据进行训练，也可以转移到真实世界，并能泛化到训练中未见过的命令，比如向后走。这些发现为通过生成建模感知动作轨迹来学习具有挑战性的现实世界控制任务指明了一个有前途的路径。

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

http://arxiv.org/abs/2402.19469v1

产品

D-ID Agents

D-ID Agents 利用人工智能技术，通过创建个性化数字人实现实时、动态对话。D-ID Agents 的关键功能包括：动态对话、定制化、洞察性分析、全球覆盖和易于集成等。这项技术旨在提升客户支持、提升营销活动效果，并改变用户互动体验，为客户提供更加个性化和无缝的互动体验。

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

https://www.d-id.com/agents/

Merge AI

Merge AI 是一个为忙碌的开发人员和技术设计师提供的 UI 构建器。它的特点是可以使用呈现为 UI 的代码进行设计，使得任何 UI 中的更改都会反映在代码中，用户可以直接复制这些代码。相较于其他 React UI 构建器和设计工具，Merge AI 的优势在于不需要再借助插件将设计转化为代码，并可以使用专有组件库或开源组件库。同时，它还提供了内置开源库、AI 组件创建器、一键式生产就绪代码下载或导出等功能。

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

https://www.uxpin.com/

Athina AI

Athina 可以帮助开发人员轻松监控他们的 LLM 应用程序在生产环境中的表现。通过 Athina，开发人员可以使用超过40种评估指标来衡量模型的性能，并在 CI/CD 中进行监控。该产品还提供了许多功能，如全面了解生产日志、支持自定义评估指标、比较不同模型、提示和主题的性能等。

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

https://athina.ai/

vidyo.ai

vidyo.ai 只需单击一下即可将长视频变成病毒式短片，让营销人员、视频编辑等免于为不同平台重新制作短视频。产品提供场景变化检测、可定制的 AI 字幕、B-roll 镜头、快速传播预测器、品牌套件、AI 社交媒体描述和视频编辑的多合一工具等。

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability

https://vidyo.ai/

学习

大语言模型中的第一性原理：Scaling laws

这篇文章探讨了大语言模型中的尺度定律（Scaling laws），这是描述模型性能、参数量、数据大小和计算量之间关系的关键因素。文章分为三部分：尺度定律的基本概念、性质和未来。尺度定律揭示了模型性能与这些因素的幂律关系，有助于预测模型效果、合理分配资源和分析模型极限。文章还讨论了不同数据类型、模型结构对性能的影响，以及如何最优分配算力。最后，探讨了尺度定律的极限、模型性能的涌现现象，以及类梅特卡夫定律在智能体网络中的应用。

https://zhuanlan.zhihu.com/p/671327709?utm_psn=1747584680831143936

Prompt Tuning相比于Fine Tuning在哪些场景下表现更好？

Prompt Tuning主要是解决在少样本或无标注数据场景下，模型表现优异的问题。传统的Fine Tuning需要大量数据来适应新的任务形式，容易过拟合，特别是在大型预训练模型参数众多时，为特定任务微调模型会导致部署资源的极大浪费。Prompt Tuning通过设计合适的模板和标签映射方式，将下游任务转换成自然语言形式，挖掘预训练模型本身的能力，实现零样本或少样本学习。它不仅减少了对大量标注数据的依赖，也显著降低了模型部署的资源消耗，尤其在TextbookQA等具有大域变化的数据集上，提供了更强的零样本性能。此外，Prompt Tuning在模型规模增大时，其性能趋近甚至有可能超越Fine Tuning，显示出较高的参数效率。

https://www.zhihu.com/question/504324484?tm_psn=1749470230827765760

大模型周报：GPT-4时代已过？零一万物发布并开源Yi模型？苹果发力大模型动画生成！Midjourney封禁Stability