大模型日报（4月7日学术篇）

欢迎观看大模型日报，如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。

欢迎大家一起交流！

论文

AutoWebGLM：基于大型语言模型的Web导航智能体的自举和强化

大语言模型（LLMs）推动了许多智能体任务，如网络导航，但大多数现有智能体在真实网络页面中表现不佳，原因有三：（1）网络页面上操作的多样性，（2）HTML文本超过模型处理能力，（3）决策复杂性由于网络的开域性质。面对挑战，我们开发了AutoWebGLM，一个基于ChatGLM3-6B构建的GPT-4表现优异的自动网络导航智能体。受人类浏览模式启发，我们设计了一个HTML简化算法来代表网页，简洁地保留关键信息。我们采用混合人工智能方法构建网络浏览数据进行课程训练。然后，通过强化学习和拒绝抽样来进一步促进网页理解、浏览器操作和任务分解的有效性。在测试中，我们建立了一个双语基准 – AutoWebBench – 用于真实网络浏览任务。我们评估了AutoWebGLM在各种网络导航基准上的表现，揭示了其改进但也需要解决真实环境中的潜在挑战。相关代码、模型和数据将在https://github.com/THUDM/AutoWebGLM上发布。

http://arxiv.org/abs/2404.03648v1

在Mamba中定位和编辑事实关联

我们研究了Mamba状态空间模型中事实召回的机制。我们的工作受到自回归Transformer语言模型在以前的发现的启发，这些发现表明它们的知识召回是局部化的，位于特定的token位置；因此，我们问Mamba中的事实召回是否可以类似地局部化。为了调查这一点，我们在Mamba上进行了四条实验线。首先，我们应用因果追踪或交换干预来定位Mamba内负责召回事实的关键组件，揭示在Mamba内部的特定组件在主题的最后一个token处显示出强烈的因果效应，而对后续层进行干预的因果效应在提示的最后一个token处最为显著，与自回归Transformer的先前研究结果相匹配。其次，我们展示了一阶模型编辑方法可以成功地在特定位置插入事实，再次类似于Transformer模型的发现。第三，我们考察了Mamba对事实关系的表示的线性性。最后，我们将注意力剔除技术调整到Mamba中，以解剖事实召回期间的信息流。我们直接将Mamba与一个大小相似的Transformer进行比较，并总结说，尽管在架构方法上存在重大差异，但在事实召回方面，这两种架构有许多相似之处。

http://arxiv.org/abs/2404.03646v1

在神经压缩文本上训练大语言模型

在本文中，我们探讨了在高度压缩文本上训练大语言模型（LLMs）的想法。传统的子词分词器通过较小的因子压缩文本，而神经文本压缩器可以实现更高的压缩率。如果可以直接在神经压缩文本上训练LLMs，这将在训练和提供效率上带来优势，同时更容易处理长文本范围。实现这一目标的主要障碍在于强压缩往往会产生不适合学习的不透明输出。为了克服这一障碍，我们提出了Equal-Info Windows，一种新颖的压缩技术，将文本分段成每个块的压缩比特长度相同。使用这种方法，我们展示了在神经压缩文本上的有效学习，随着规模的扩大而改善，并在困惑度和推理速度基准测试中明显优于字节级基线。尽管我们的方法相对于具有相同参数数量的模型训练的子词分词器交出了更差的困惑度，但它具有序列长度更短的好处。较短的序列长度需要更少的自回归生成步骤，减少了延迟。最后，我们对有助于学习性的特性进行了广泛分析，并提出了如何进一步改进高压缩分词器性能的具体建议。

http://arxiv.org/abs/2404.03626v1

在大语言模型中的演绎、归纳和产生式学习：一个不完整的循环

现代语言模型（LMs）可以以不同的方式学习执行新任务：在指令遵循中，目标任务在自然语言中明确描述；在少量提示中，任务通过少量示例隐含指定；在指令推断中，LMs被提供上下文示例，然后被提示生成自然语言任务描述以进行预测。每种程序可以被视为调用不同形式的推理：指令遵循涉及演绎推理，少量提示涉及归纳推理，指令推断涉及演绎推理。这些不同能力如何关联？通过四个LMs（来自gpt和llama系列）和两个学习问题（涉及算术函数和机器翻译），我们发现不同类型推理之间存在明显分离：即使LMs有时无法解释自己的预测规则，它们有时可以有效地从少量提示中学习；相反，它们有时推断出有用的任务描述，却完全无法从人类生成的相同任务描述中学习。我们的结果突显了即使在今天一些最大的LMs中，推理的非系统性特性，并强调似乎相似的提示程序可能调用非常不同的学习机制。

http://arxiv.org/abs/2404.03028v1

代码编辑基准：评估大型语言模型的代码编辑能力

大语言模型（LLMs）用于代码编辑日益发展，代码编辑成为关键能力。我们引入了CodeEditorBench，一个评估框架，旨在严格评估LLMs在代码编辑任务中的表现，包括调试、翻译、完善和需求切换。与现有的专注于代码生成的基准不同，CodeEditorBench强调现实世界场景和软件开发的实际方面。我们从五个来源策划了各种编码挑战和场景，涵盖了不同的编程语言、复杂性水平和编辑任务。对19个LLMs的评估显示，闭源模型（尤其是Gemini-Ultra和GPT-4）在CodeEditorBench中胜过开源模型，突出显示基于问题类型和提示敏感度的模型性能差异。CodeEditorBench旨在通过提供一个强大的平台来评估代码编辑能力，推动LLMs的进步。我们将发布所有提示和数据集，以便社区扩展数据集并评估新兴LLMs。通过引入CodeEditorBench，我们为LLMs在代码编辑中的进步做出贡献，并为研究人员和实践者提供宝贵资源。

http://arxiv.org/abs/2404.03543v1

HuggingFace&Github

Anthropic-cookbook

Anthropic Cookbook 提供旨在帮助开发人员使用 Claude 进行构建的代码指南，并提供可复制的代码片段，用户可以轻松地将其集成到自己的项目中。

https://github.com/anthropics/anthropic-cookbook

VAR

VAR 是 Visual AutoRegressive modeling 的缩写，它是一种重新定义图像上的自回归学习的新一代范式。它将自回归变换器快速学习视觉分布和良好泛化的方法与标准的光栅扫描“下一个标记预测”有所不同。VAR 首次使 AR 模型在图像生成方面超越了扩散变压器。在 ImageNet 256×256 基准测试中，VAR 通过将 Frechet inception 距离从 18.65提高到 1.80，将 inception 分数从 80.4 提高到 356.4，显着改善了AR 基准，并且推理速度约快了20倍。经验证，VAR在图像质量、推理速度、数据效率和可扩展性等多个维度上优于扩散变压器（DiT）。放大 VAR 模型展现出类似于 LLMs 中观察到的幂律缩放规律，线性相关系数接近 -0.998。VAR 还展示了在下游任务中的零样本泛化能力，包括图像修补、外部修补和编辑。

https://github.com/FoundationVision/VAR

学习

图解大模型计算加速系列：Flash Attention V2，从原理到并行计算

Flash Attention V2 通过交换 V1 计算逻辑中的内外循环位置以减少 shared memory 的读写次数，实现了进一步的计算加速。V2 的设计允许在 CUDA 层面进行并行计算优化，包括优化 Attention 部分的 thread blocks 并行计算和 warp 级别的工作模式，减少 warp 间通讯和 shared memory 读取次数。此外，V2 在 thread blocks 排布中新增了 seq_len 维度的并行，以提高 SM（Streaming Multiprocessors）的利用率，整体上通过几个关键的技术改进提高了计算效率。

https://zhuanlan.zhihu.com/p/691067658

深入理解 Megatron-LM（6）流水线刷新机制

文章深入探讨了 Megatron-LM 框架中实现的流水线刷新机制，特别是如何通过合理安排各个阶段的执行顺序来优化训练过程。Megatron-LM 结合了数据并行、张量并行和流水线并行技术，通过调度策略如 flush 和 interleaving 来管理流水线的执行。重点介绍了基于 PyTorch 的分布式训练框架如何利用 get_forward_backward_func 函数获取流水线的 schedule，进而实现 flush 调度。此外，文章还讨论了基于 PipeDream-2BW 实现的定期刷新策略，该策略通过维护双缓冲权重（double-buffered weights）和全局同步更新，旨在平衡内存使用和性能。

https://zhuanlan.zhihu.com/p/651341660

如何降低 AI 工程成本？蚂蚁从训练到推理的全栈实践

在NVIDIA GTC 2024大会上，蚂蚁集团AI Infra部门负责人张科分享了AI工程的现状、挑战及蚂蚁在AI工程全栈实践的经验。他提到，随着模型参数规模的指数增长和算力需求的急剧上升，降低AI训练和推理成本成为主要挑战。蚂蚁集团通过推出DLRover服务、GLake显存优化和数据传输优化工作、以及模型优化器的研发，实现了智能分布式训练和高效稳定的推理。这些开源项目旨在提高AI工程的整体效率和稳定性，包括自动并行优化、自动资源配置、提升大规模训练的稳定性，以及显存池化和层次化管理，最终达到优化AI工程成本的目的。

https://zhuanlan.zhihu.com/p/689775888

Megatron-LM 中 Context Parallel 的工作原理是什么？

在讨论Megatron-LM中Context Parallel（CP）的工作原理时，关键在于其对长序列大模型训练的优化。CP通过沿序列维度切分数据实现序列并行，其中非attention操作与常规数据并行无异。关键技术细节包括attention层的序列并行支持，通过调用transformer engine内的attention实现。为了降低内存和通信开销，采用flash-attention分块计算和ring attention构建环状通信，优化全局注意力计算。此外，还包括负载均衡策略，如将序列切分成四份，保证设备间计算量均衡，提高效率。

https://www.zhihu.com/question/637961859/answer/3397275232

如何判断候选人有没有千卡GPU集群的训练经验？

判断候选人是否具有千卡GPU集群训练经验，可以通过其对大规模并行处理和通信优化的理解深度。具体技术细节包括对64卡后通信优化的策略理解，如何处理超过64张GPU卡后，每个GPU的吞吐量急剧下降的问题。专家通常对如何在千卡规模下优化模型训练有深入见解，包括数据处理、模型预训练任务的稳定运行，以及使用自动重启机制维持训练的连续性。这些细节能够反映一个人是否真正具备在高性能计算环境下工作的经验。

https://www.zhihu.com/question/650979052