大模型日报（4月11日学术篇）

特别活动！

欢迎观看大模型日报，如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。

欢迎大家一起交流！

论文

数据过滤的扩展定律 — 数据构建不可能与计算无关

视觉语言模型（VLMs）经过数千小时的GPU训练，使用精心策划的网络数据集。最近，数据整理受到关注，许多研究开发了保留“高质量”子集的策略来保留‘原始’抓取的数据。例如，LAION公共数据集仅保留了总爬取数据的10％。然而，这些策略通常不考虑训练所需的计算资源。本文首先证明，在不考虑训练计算的情况下做过滤决策通常不是最佳选择：有限的高质量数据在被重复使用时迅速失去效用，最终需要包含‘未见过’但‘较低质量’的数据。为了解决质量和数量之间的权衡问题，我们引入了考虑网页数据非均匀性的神经缩放定律，这是现有文献中忽略的一个角度。我们的缩放定律（i）表征了各种质量子集的‘效用’之间的差异；（ii）考虑了数据点在第‘n’次重复时效用如何减少；以及（iii）制定了各种数据池的相互作用，使得能够估计模型在多个数据池组合上的性能，而无需同时在它们上面进行训练。我们的核心信息是，数据整理不应该忽视模型将被训练的总计算资源。我们的缩放定律允许我们精心策划最佳可能的数据池，以在不同计算预算下实现在Datacomp上的最佳性能，为数据整理开辟出一个帕累托边界。代码可在https://github.com/locuslab/scaling_laws_data_filtering获取。

http://arxiv.org/abs/2404.07177v1

诱导头电路取得成功需要什么？在上下文学习电路及其形成的机制研究

在Transformer模型中，背景学习是一种强大的涌现能力。在机械解释性方面的先前工作已经确定了一个可能对背景学习至关重要的电路元素——诱导头（IH），它执行匹配和复制操作。在自然语言数据上训练大型Transformer模型时，IH会在损失的显著阶段变化时出现。尽管有关IH的强有力证据以及与阶段变化的有趣巧合，对IH的多样性和涌现动态知之甚少。为什么会有多个IH？它们之间如何相互依赖？IH为什么突然出现？什么是使它们涌现的子电路？通过在合成数据上训练，我们研究了IH在受控环境中的涌现动态。在这个过程中，我们开发并分享了一个受光遗传学启发的新型因果框架，用于修改整个训练过程中的激活。利用这一框架，我们详细说明了IH的多样且可累加的性质。通过在整个训练过程中夹紧激活的子集，我们确定了三个相互作用以驱动IH形成的基础子电路，导致阶段变化。此外，这些子电路揭示了涌现特性的数据相关属性，如阶段变化的时机，已经展现了对于IH需要“正确进行”的更深入理解的潜力。

http://arxiv.org/abs/2404.07129v1

不落下任何上下文：高效的无限上下文Transformer与无限注意力

本研究介绍了一种有效方法，可以将基于Transformer的大语言模型(LLMs)扩展到具有有限内存和计算的无限长输入。我们提出方法的关键组件是一种名为无限关注(Infini-attention)的新注意力技术。无限关注将一个压缩式记忆体纳入到传统注意力机制中，并在单个Transformer块中构建了掩码局部关注和长期线性关注机制。我们在长上下文语言建模基准上，1M长度密码上下文块检索和500K长度书籍摘要任务中，分别使用1B和8B的LLMs展示了我们方法的有效性。我们的方法引入了最小的有限内存参数，并实现了LLMs的快速流式推理。

http://arxiv.org/abs/2404.07143v1

探索概念深度：大语言模型如何在不同层面获得知识？

本文研究了大语言模型中不同层次学习不同概念的现象，即更困难的概念在更深层次上完全被习得。我们通过抽象程度定义了概念的困难程度，并粗略地按事实、情感和推理进行分类。每个类别包含一系列任务，从简单到复杂排列。我们利用探测技术从模型的不同层中提取表示，并将其应用于分类任务。我们的发现表明，模型倾向于有效地分类较简单的任务，表明这些概念是在更浅的层次中学习的。相反，更复杂的任务可能只在更深层次上才能分辨，如果有的话。本文探讨了这些发现对我们理解模型学习过程和内部表示的影响。我们的实现可在 https://github.com/Luckfort/CD 找到。

http://arxiv.org/abs/2404.07066v1

思维雕刻：使用中间修订和搜索进行推理

我们提出了THOUGHTSCULPT，一种通用的推理和搜索方法，适用于可以分解为组件的任务。THOUGHTSCULPT使用蒙特卡洛树搜索（MCTS）来探索潜在解决方案的搜索树，一次构建一个动作，并根据任何特定于领域的启发式进行评估，实际上通常只是一个LLM评估器。关键是，我们的动作空间包括修订动作：THOUGHTSCULPT可能选择修改其先前输出的部分，而不是继续构建其余的输出。实验证明，THOUGHTSCULPT在三项具有挑战性的任务中表现优于最先进的推理方法：故事大纲改善（高达+30％的趣味性），迷你填字游戏求解（高达+16％的单词成功率）和受限生成（高达+10％的概念覆盖率）。

http://arxiv.org/abs/2404.05966v1

麻婆豆腐中包含咖啡吗：探索大语言模型中的食品文化知识

最近的研究强调了大语言模型（LLMs）中存在的文化偏见，但往往缺乏一个全面剖析这些现象的强大方法论。我们的工作旨在通过深入探讨食品领域来弥补这一差距，这是一个普遍相关但文化多样的人类生活方面。我们引入了FmLAMA，一个以食品相关文化事实和食品实践变化为中心的多语言数据集。我们分析了不同架构和配置下的LLMs，在单语和多语环境下评估它们的性能。通过利用六种不同语言中的模板，我们研究LLMs如何与语言特定和文化知识互动。我们的研究发现：（1）LLMs表现出对美国食品知识的明显偏好；（2）纳入相关文化背景显著提高了LLMs访问文化知识的能力；（3）LLMs捕捉文化细微差别的有效性很大程度上取决于探究语言、具体模型架构和所讨论的文化背景之间的相互作用。这项研究突显了将文化理解融入LLMs的复杂性，并强调了通过文化多样性数据集来减轻偏见、增强模型在不同文化领域中的性能的重要性。

http://arxiv.org/abs/2404.06833v1

简化能提升事实一致性自动评估效果

评估自动生成文本与源语境的事实一致性对于开发可靠的自然语言生成应用程序至关重要。最近的文献提出了使用统一对齐模型的AlignScore来评估事实一致性，在许多基准任务上远远超过以往的方法。本文对AlignScore中使用的数据集进行了详细研究，并发现一个意外的发现：利用较少的数据点实际上可以提高性能。我们处理原始AlignScore训练数据集以去除噪声，增加具有鲁棒性的样本，并利用该数据的10%子集训练了一个改进的事实一致性评估模型，我们称之为LIM-RA（Robust AlignScore的小即是多）。LIM-RA展示了优越的性能，持续优于AlignScore和其他强基线模型，如ChatGPT，跨越四个基准测试（两个使用传统自然语言生成数据集，两个关注大型语言模型输出）。我们的实验表明，LIM-RA在33个测试数据集中的24个上获得了最高分，同时在其他数据集上保持竞争力，建立了新的最优基准。