大模型周报：谷歌Gemini生图功能紧急关闭，口碑一夜塌房

大模型周报由大模型日报精选编辑而成，如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。

欢迎大家一起交流！

资讯

谷歌Gemini生图功能紧急关闭，口碑一夜塌房

去年年底，谷歌 Gemini 震撼了业界，号称第一个原生多模态大模型，能力超越 GPT-4，也被认为是谷歌反击微软和 OpenAI 的强大工具。上周谷歌还火速更新了 Gemini Pro 1.5 版。结果，推出不到一个月，这个 Gemini 就翻车了。

众多用户在使用人像生成服务时发现，Gemini 似乎拒绝在图像中描绘白人，以至于生成了不少违背基本事实（性别、种族、宗教等）的图片，是否有些矫枉过正，如下图将马斯克生成为黑人。

https://mp.weixin.qq.com/s/gmzBY9XhNEQtUVfRF5pfPg

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

“绝不是简单的抠图。” ControlNet作者最新推出的一项研究受到了一波高度关注——给一句prompt，用Stable Diffusion可以直接生成单个或多个透明图层（PNG）！这就是ControlNet作者提出的新方法——LayerDiffusion，允许大规模预训练的潜在扩散模型（Latent Diffusion Model）生成透明图像。

大模型周报：谷歌Gemini生图功能紧急关闭，口碑一夜塌房

https://mp.weixin.qq.com/s/-jt5qufKSibPCz0A6DHbPg

英伟达新显卡发布！

笔记本AI画图提速14倍，轻薄本也能当AI工作站

黄院士的新核弹，来了！全新消费级显卡，专为提速笔记本大模型应用而生。就在这两天的 MWC 上，英伟达重磅推出了全新 GPU——RTX 500 和 RTX 1000。比起只使用CPU，全新RTX 500 可以为 Stable Diffusion 等模型提供高达14倍的生成式 AI 性能！不仅如此，搭载RTX 500后，用 AI 进行照片编辑的速度也将提高 3倍，3D 渲染图形的性能更是提高了 10 倍。更重要的是，RTX 500 和 RTX 1000 是用于轻薄笔记本电脑，属于英伟达 Ada Generation 系列的工作站显卡。即便在性能上有了如此提升，英伟达还是将二者定位在了“入门级”，主打的就是让普通笔记本也有彪悍的 AI 能力。

大模型周报：谷歌Gemini生图功能紧急关闭，口碑一夜塌房

https://mp.weixin.qq.com/s/4d9jDodEPNVii7iV5-qL8Q

Adobe 推出生成式 AI音乐原型工具

Project Music GenAl Control

能上有了如此提升，英伟达还是将二者定位在了“入门级”，主打的就是让普通笔记本也有彪悍的 AI 能力。周三在布鲁克林举行的 Hot Pod 峰会上，Adobe 宣布了新的生成式 AI实验项目:Project Music GenAl Control.一款新的原型工具，允许用户使用文本提示生成音乐，然后编辑音频，而无需跳转到专用编辑软件。

https://www.theverge.com/2024/2/28/24085551/adobe-project-music-genai-control-prototype-tool-hot-pod

反转？OpenAI：纽约时报「黑客攻击」了ChatGPT，

要求驳回版权诉讼

去年年底，《纽约时报》向微软和 OpenAI 提起侵犯版权诉讼，指控其违规使用了《纽约时报》的内容来进行人工智能开发。在这份起诉书中，《纽约时报》列出了 GPT-4 输出「抄袭」《纽约时报》的「证据」，GPT-4 的许多回答与《纽约时报》的报道段落几乎完全一致。《纽约时报》指责 OpenAI 和微软试图「搭《纽约时报》对其新闻业的巨额投资的便车」，并创建报纸的替代品。

彼时，《纽约时报》发言人在一份电子邮件声明中表示：「如果微软和 OpenAI 想要将我们的作品用于商业目的，法律要求他们首先要获得我们的许可，但他们没有这样做。」

令人意外的是，事情居然出现了反转。据路透社报道，OpenAI 已要求联邦法院驳回《纽约时报》的版权诉讼，并称该报「黑客攻击」了 OpenAI 的 ChatGPT 和其他人工智能系统，为该报生成误导性证据。

OpenAI 在周一向曼哈顿联邦法院提交的文件中称《纽约时报》通过使用「公然违反 OpenAI 使用条款的欺骗性提示（deceptive prompt）」，使得 AI 复制其材料。

https://mp.weixin.qq.com/s/UOlQEM8dg9_Zib2sk30kWw

论文

01

补齐Transformer规划短板，

田渊栋团队的Searchformer火了

最近几年，基于 Transformer 的架构在多种任务上都表现卓越，使用这类架构搭配大量数据，得到的大型语言模型（LLM）等模型可以很好地泛化用于真实世界用例。但基于 Transformer 的架构和 LLM 依然难以处理规划和推理任务。

为了提升 Transformer 的推理和规划性能，近些年研究社区也提出了一些方法。一种最常见且有效的方法是模拟人类的思考过程：先生成中间「思维」，然后再输出响应。尽管这些技术通常是有效的，但也有研究表明，在很多案例中，这些方法会让模型的性能下降。

为了让 Transformer 具备复杂推理能力，Meta FAIR 田渊栋团队近日提出了 Searchformer。Searchformer 是一种 Transformer 模型，但针对迷宫导航和推箱子等多步规划任务，它却能计算出最优规划并且所用搜索步骤数也能远少于 A∗ 搜索等符号规划算法。

为了做到这一点，该团队提出了一种新方法：搜索动态引导（search dynamics bootstrapping）。该方法首先是训练一个 Transformer 模型来模仿 A∗ 的搜索过程（如图所示，然后对其进行微调，使其能用更少的搜索步数找到最优规划。

大模型周报：谷歌Gemini生图功能紧急关闭，口碑一夜塌房

http://arxiv.org/abs/2402.14658v1

国内高校打造类Sora模型VDT

VDT 的创新之处，主要包括如下几个方面：

将 Transformer 技术应用于基于扩散的视频生成，展现了 Transformer 在视频生成领域的巨大潜力。VDT 的优势在于其出色的时间依赖性捕获能力，能够生成时间上连贯的视频帧，包括模拟三维对象随时间的物理动态。
提出统一的时空掩码建模机制，使 VDT 能够处理多种视频生成任务，实现了技术的广泛应用。VDT 灵活的条件信息处理方式，如简单的 token 空间拼接，有效地统一了不同长度和模态的信息。同时，通过与该工作提出的时空掩码建模机制结合，VDT 成为了一个通用的视频扩散工具，在不修改模型结构的情况下可以应用于无条件生成、视频后续帧预测、插帧、图生视频、视频画面补全等多种视频生成任务

https://arxiv.org/abs/2305.13311

Genie: 生成式交互式环境

本文展示了Genie，这是第一个从未经监督训练的、由未标记的互联网视频生成的交互式环境。这个模型可以被提示以生成通过文本、合成图像、照片，甚至草图描述的无限多种可控行动的虚拟世界。在拥有110亿参数的情况下，Genie可以被看作是一个基础世界模型。它由一个时空视频分词器、自回归动力学模型以及一个简单且可扩展的潜在行动模型组成。Genie使用户能够在生成的环境中基于逐帧基础行动，尽管训练过程中没有任何基于事实的行动标签或其他在世界模型文献中通常找到的领域特定要求。

另外，所学到的潜在行动空间有助于训练智能体模仿来自未见视频的行为，为未来训练通用性智能体开启了道路。

大模型周报：谷歌Gemini生图功能紧急关闭，口碑一夜塌房

http://arxiv.org/abs/2402.15391v1

DistriFusion：高分辨率扩散模型的分布式并行推理

扩散模型在合成高质量图像方面取得了极大成功。然而，由于巨大的计算成本，使用扩散模型生成高分辨率图像仍然具有挑战性，导致交互应用的延迟成为禁忌。本文提出了DistriFusion来解决这个问题，通过利用多个GPU之间的并行性。我们的方法将模型输入分成多个块，并将每个块分配给一个GPU。然而，朴素地实现这样的算法会破坏块之间的互动并丢失保真度，而引入这样的互动将导致巨大的通信开销。为了克服这一困境，我们观察到相邻扩散步骤输入之间的高相似性，提出了位移块并行性，利用了扩散过程的顺序性质，通过重新使用先前时间步骤中预先计算的特征图，为当前步骤提供上下文。因此，我们的方法支持异步通信，可以通过计算进行流水线处理。大量实验证明，我们的方法可以应用于最近的Stable Diffusion XL模型，无需降低质量，并在与一个NVIDIA A100相比达到最多6.1倍的加速。我们的代码公开在https://github.com/mit-han-lab/distrifuser。

http://arxiv.org/abs/2402.19481v1

大语言模型数据集：全面调查

本文探讨了大语言模型（LLM）数据集，在LLM的显著进展中起着至关重要的作用。这些数据集类似于维持和培育LLM发展的根系基础设施。因此，对这些数据集的审查成为研究中的一个关键议题。

为了解决当前对LLM数据集缺乏全面概述和彻底分析的问题，并获取对其当前状况和未来趋势的见解，本调查从五个角度整合和分类LLM数据集的基本方面：（1）预训练语料库；（2）指导微调数据集；（3）偏好数据集；（4）评估数据集；（5）传统自然语言处理（NLP）数据集。调查揭示了当前面临的挑战，并指出了未来研究的潜在方向。

此外，还提供了对现有可用数据集资源的全面审查，包括来自444个数据集的统计数据，涵盖8个语言类别，跨越32个领域。数据统计中包含了来自20个维度的信息。调查范围涵盖的总数据量超过774.5 TB用于预训练语料库，其他数据集则包含700M个实例。我们旨在呈现LLM文本数据集的整体景观，作为这一领域的研究人员的综合参考，并为未来研究做出贡献。相关资源可在以下链接找到：https://github.com/lmmlzn/Awesome-LLMs-Datasets。

http://arxiv.org/abs/2402.18041v1

学习

Sora懂不懂物理世界？

本页面讨论了AI模型Sora对物理世界的理解能力。专家顾险峰教授指出Sora在物理视频生成中存在问题，如无法精确表达物理因果律、缺乏全局合理性、忽略临界态等。Sora通过短视频训练集学习，将视频编码到数据空间并切割成时空补丁，但这种方法在表达物理过程时存在局限性。其他专家则认为，尽管Sora不能完全理解物理世界，但它的预测输出在一定范围内是有用的，且AI的发展可能会提高我们对物理世界的理解。

https://www.zhihu.com/question/645000449

彭博：语言模型的挑战和未来，

仍需解决哪些问题？

彭博在文章中讨论了语言模型面临的挑战和未来发展方向。他提出了几个目标，包括生成连贯的长篇小说、根据用户指示学习和修正观念、改进采样方法、发展真正的规划能力、实现多模态理解和直接使用图像作为输入。彭博还提出了三个实际问题，探讨了AI在数学证明、理论物理和文学创作方面的潜力。他认为，尽管大模型的学习能力很强，但在算法和硬件方面仍有进步空间。彭博强调，AI的目标应该是增强人类，而不是取代人类。他还提到，尽管OpenAI的GPT-4没有显著超越前代，但国内很快可能会复现类似的技术。

https://mp.weixin.qq.com/s/i97nqFJhgYRXkTF0syTuaw

diffusion model(五) LDM: 在隐空间用diffusion model合成高质量的图片！（stable diffusion底层原理）

文章介绍了Latent Diffusion Model（LDM），这是一种在隐空间进行图像合成的扩散模型。LDM通过预训练的VAE模型将图像从像素空间转换到隐空间，然后在隐空间进行扩散过程，显著提高了训练和推理效率。LDM采用了两阶段训练策略，先训练VAE，再训练扩散模型。此外，LDM还能够引入控制信号，如文本或图片布局，以实现更细粒度的图像生成。这种方法使得高分辨率图像合成在消费级显卡上成为可能，降低了AI图像生成的门槛。

https://zhuanlan.zhihu.com/p/684484121utm_psn=1746830265735868417

RAG 领域的新宠：为什么 AI 圈都在谈论 Jina ColBERT？

Jina AI 推出的 Jina-ColBERT 模型在 RAG（检索增强生成）领域受到关注，它基于 BERT 模型，采用多向量搜索技术，能处理长达 8192 Token 的文本。与单向量模型相比，Jina-ColBERT 通过逐 token 编码提供细粒度表征，增强了可解释性和跨领域泛化能力。在 BEIR 数据集测试中，Jina-ColBERT 展现了与 ColBERTv2 相媲美的性能，尤其在长文本处理上表现更优。目前，Jina-ColBERT 仅支持英文内容，可通过 Colab Notebook 快速上手。

https://mp.weixin.qq.com/s/xt5–tzTLT5G5YpBAvRivZA