大模型日报（9月2日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

NDP：下一次分配预测作为更广泛的目标

大语言模型(LLMs)在下一个token预测(NTP)范式上训练，展现出强大的能力。然而，现有的NTP范式存在几个限制，特别是与计划任务复杂性和推理过程中的错误传播相关。在我们的工作中，我们扩展了对NTP的批评，强调其限制也是由于训练目标狭窄：预测次优的one-hot分布。为了支持这一批评，我们进行了一个预先实验，将强大的LLMs的输出分布视为高效的世界数据压缩。通过评估$n$-gram分布与LLMs的输出分布之间的相似度，我们观察到$n$-gram分布更接近于LLMs的输出分布。基于这一看法，我们引入了下一个分布预测(NDP)，该方法使用$n$-gram分布来替代one-hot目标，增强学习而不需额外在线训练时间。我们在翻译、通用任务、语言转移和医学领域适应等方面进行了实验。与NTP相比，NDP在翻译任务中可以实现高达+2.97 COMET改进，在通用任务中平均改进+0.61，在医学领域平均改进惊人的+10.75。这展示了解决目标缩窄问题的具体好处，为未来改进NTP的工作指明了一个新方向。

http://arxiv.org/abs/2408.17377v1

MemLong: 用于长文本建模的记忆增强检索

大语言模型（LLMs）的最新进展在各个领域取得了显著成功。然而，由于注意力机制的二次时间和空间复杂度以及生成过程中键值缓存的内存消耗不断增长，处理长上下文仍然是LLMs面临的重要挑战。本文介绍了MemLong：用于长文本生成的记忆增强检索方法，旨在通过利用外部检索器进行历史信息检索来增强长上下文语言建模的能力。MemLong将一个不可微分的“ret-mem”模块与部分可训练的仅解码器语言模型相结合，并引入了一个细粒度、可控的检索注意力机制，利用语义级相关的数据块。对多个长上下文语言建模基准的全面评估表明，MemLong始终表现优于其他最先进的LLMs。更重要的是，MemLong可以在一块单独的3090 GPU上将上下文长度从4k扩展到80k。我们的代码可在https://github.com/Bui1dMySea/MemLong找到。

http://arxiv.org/abs/2408.16967v1

灵活高效地将大语言模型与领域专家混合

我们提出了一个工具包，用于从训练模型中创建低成本的领域专家混合体。该工具包可用于从模型或适配器创建混合体。我们进行了广泛测试，并提供了如何使用该工具包定义结果MOE架构的指导。有一个公共存储库可供使用。

http://arxiv.org/abs/2408.17280v1

UserSumBench：用于评估用户总结方法的基准框架

大语言模型（LLMs）已显示出在从一长串原始用户活动数据生成用户摘要方面具有显著能力。这些摘要捕捉了用户偏好和兴趣等重要信息，因此对基于LLM的个性化应用（如可解释的推荐系统）至关重要。然而，由于缺乏基准标签、用户摘要固有的主观性以及人工评估往往昂贵耗时，新摘要技术的发展受到了阻碍。为解决这些挑战，我们引入了UserSumBench，一个旨在促进基于LLM的摘要方法迭代开发的基准框架。该框架提供了两个关键组件：（1）一个无参考摘要质量度量。我们展示了这个度量在三个不同数据集（MovieLens、Yelp和Amazon Review）中是有效的且与人类喜好一致。（2）一种新颖的鲁棒摘要方法，利用了时间分层摘要器和自我审核验证器，从而生成高质量摘要并消除了虚假信息。这种方法为摘要技术的进一步创新提供了强有力的基准。

http://arxiv.org/abs/2408.16966v1

Modularity in Transformers：研究神经元的分离性与专业化

摘要：Transformer模型在各种应用中日益普及，但我们对其内部运作机制的理解仍然有限。本文研究了Transformer架构内神经元的模块化和任务专业化，重点关注视觉（ViT）和语言（Mistral 7B）模型。通过选择性修剪和MoEfication聚类技术的结合，我们分析了不同任务和数据子集中神经元的重叠和专业化。我们的发现显示出任务特定的神经元簇，不同相关任务之间存在不同程度的重叠。我们观察到神经元的重要性模式在随机初始化的模型中某种程度上仍然存在，这表明训练优化了固有的结构。此外，我们发现通过MoEfication识别的神经元簇更强烈地对应于模型早期和后期层中的任务特定神经元。这项工作有助于更细致地了解Transformer的内部，并提供了改进模型可解释性和效率的潜在途径的见解。

http://arxiv.org/abs/2408.17324v1

关于迁移学习的扩展定律的实证研究

我们展示了一个有关Transformer模型中迁移学习规模定律的有限经验研究。具体来说，我们研究了一个包含“迁移差距”项的规模定律，该项指示在优化另一个分布的下游性能时，对一个分布进行预训练的有效性。当迁移差距较低时，预训练是一种提高下游性能的成本有效策略。相反，当差距较大时，收集高质量的微调数据变得相对更经济有效。拟合该规模定律到来自不同数据集的实验中揭示了在不同分布之间的迁移差距存在显著变化。从理论上讲，规模定律可以指导最佳数据分配策略，并凸显了下游数据的稀缺性如何成为性能瓶颈。我们的研究结果有助于以一种原则性的方式衡量迁移学习效率，并了解数据可用性如何影响性能。