大模型日报（5月16日学术篇）

特别活动

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

部署长上下文Transformer的挑战：理论性能峰值分析

基于Transformer的长文本生成模型为涌现的AI应用提供动力，如长达一小时的视频理解和项目级编码智能体。部署长上下文的Transformers（例如，100K到10M个token）与短上下文模型变体相比费用昂贵。从2024年开始，降低长上下文Transformer的成本正变成一项紧迫的研究和工程挑战。本文描述了一个并发编程框架，用于定量分析在有限GPU高带宽内存（HBM）制约下服务多个长上下文请求的效率挑战。我们详细分析了与4K上下文相比的所有额外计算成本都可以追溯到一个单一的来源：大规模的KV缓存。我们以A100 NVLink上的50K上下文34B GPT-3.5级模型为示例，并描述其大型KV缓存引发的四种部署挑战：（1）预填充长输入所需的计算时间和GPU内存远远多于短输入；（2）在预填充后，驻留在GPU HBM上的大型KV缓存大大限制了被服务的并发用户数量；（3）在解码期间，从HBM到SM反复读取KV缓存会大大增加延迟；（4）当KV缓存内存溢出时，从HBM交换到DDR会导致显着的上下文切换延迟。我们使用这个框架来分析现有的研究，并确定结合它们建立端到端系统的可能性。总的来说，这项工作为分析长上下文Transformer的部署奠定了基础，指明了降低1M上下文推理成本至与4K相同的方向。

http://arxiv.org/abs/2405.08944v1

MS MARCO网络搜索：一个包含数百万真实点击标签的大规模信息丰富的网络数据集

近期在大型模型领域的突破强调了数据规模、标签和模态的关键重要性。本文介绍了MS MARCO Web Search，这是第一个大规模信息丰富的网络数据集，包括了数百万真实点击的查询文档标签。该数据集紧密模拟了现实世界的网络文档和查询分布，为各种下游任务提供了丰富信息，鼓励研究各种领域，如通用的端到端神经索引器模型、通用嵌入模型，以及具有大型语言模型的下一代信息访问系统。MS MARCO Web Search提供了一个检索基准，包括三个需要在机器学习和信息检索系统研究领域创新的网络检索挑战任务。作为符合大规模、真实和丰富数据需求的第一个数据集，MS MARCO Web Search为人工智能和系统研究的未来进步铺平了道路。MS MARCO Web Search数据集可在以下链接获取：https://github.com/microsoft/MS-MARCO-Web-Search。

http://arxiv.org/abs/2405.07526v1

在新知识上微调大语言模型是否会鼓励产生幻觉？

当大型语言模型通过监督微调进行对齐时，可能会遇到没有通过预训练获得的新事实信息。人们经常猜想这可能教会模型产生事实不准确的响应，因为模型被训练来生成不基于其先前知识的事实。在这项工作中，我们研究了暴露于新知识对微调模型利用其先前知识能力的影响。为此，我们设计了一个控制的设置，专注于闭卷问答，在这里我们变化微调示例中引入新知识的比例。我们证明大型语言模型在通过微调获得新的事实知识方面存在困难，因为引入新知识的微调示例的学习速度明显比符合模型知识的示例慢。然而，我们还发现，随着新知识示例的最终学习，它们线性增加了模型产生幻觉的趋势。总的来说，我们的结果突显了通过微调引入新事实知识的风险，并支持这样一种观点：大型语言模型主要通过预训练获取事实知识，而微调则教会它们更有效地使用这些知识。

http://arxiv.org/abs/2405.05904v2

CuMo: 使用共同升级的专家混合物扩展多模态LLM

最近在多模态大语言模型（LLMs）领域的进展主要集中在通过增加文本-图像对数据和改进LLMs以提高在多模态任务上的性能方面进行的扩展。然而，这些扩展方法在计算上昂贵，并忽视了从视觉方面改进模型能力的重要性。受混合专家（MoE）在LLMs中成功应用的启发，通过在训练过程中改善模型的可扩展性同时保持推断成本与较小模型相似，我们提出了CuMo。 CuMo将Co-upcycled Top-K稀疏门控专家混合模块纳入视觉编码器和MLP连接器，从而在推断过程中最小化激活参数，增强多模态LLMs。CuMo首先对MLP模块进行预训练，然后在视觉指导调整阶段从预训练的MLP模块中初始化MoE模块中的每个专家。辅助损失被用于确保专家的平衡加载。CuMo在各种VQA和视觉指令遵循基准测试中优于最先进的多模态LLMs，使用各个模型大小组内的模型进行训练时仅使用开源数据集。CuMo的代码和模型权重均在https://github.com/SHI-Labs/CuMo上开源。

http://arxiv.org/abs/2405.05949v1

从大语言模型到行动：潜在代码作为分层机器人控制中的桥梁

层次控制机器人学长期以来一直受困于需要有明确定义的接口层来在高级任务规划器和低级策略之间进行通信。随着LLM的出现，语言作为一种潜在的接口层不断涌现。然而，这存在一些限制。并非所有任务都可以分解为自然语言易于表达的步骤（例如执行舞蹈）。为了克服这些限制，我们介绍了一种名为LCB的方法，它使用可学习的潜在代码作为LLM和低级策略之间的桥梁。LCB使LLM能够灵活地在任务规划中传达目标，而不完全受语言限制。此外，它还实现了端到端微调，而不破坏预训练期间学习的单词token嵌入空间。通过在语言表（Language Table）和Calvin这两个常见的基于语言的基准测试中进行实验，我们发现LCB在需要推理和多步行为的任务上优于仅使用纯语言作为接口层的基线模型（包括带有GPT-4V的模型）。

http://arxiv.org/abs/2405.04798v1

HuggingFace&Github

bilibot

bilibot是一款基于哔哩哔哩用户评论数据微调训练而成的本地化聊天机器人，集成了文字交互和语音对话两大功能。它借助了 Qwen1.5-32B-Chat语言模型、苹果 MLX-LM 微调框架、GPT-SoVITS 语音生成等开源技术，拥有较为丰富的对话能力。该项目提供了完整的模型训练、压缩优化、对话测试等流程，体现了较为成熟的开发水平，哔哩哔哩用户可以关注和使用。

https://github.com/linyiLYi/bilibot