大模型日报（5月29日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

Yuan 2.0-M32：带有注意路由器的专家混合

摘要：Yuan 2.0-M32采用与Yuan-2.0 2B相似的基础架构，使用32个专家的混合专家架构，其中有2个专家是活跃的。提出并采用了新的路由器网络Attention Router，用于更有效地选择专家，相比传统路由器网络的模型提高了3.8%的准确率。Yuan 2.0-M32是从零开始训练的，使用了2000B个token，训练计算消耗仅为同等参数规模下稠密模型的9.25%。Yuan 2.0-M32展示了在编码、数学和各种领域的竞争能力，仅有3.7B活跃参数中的40B总参数，并且每个token的前向计算为7.4 GFlops，分别只有Llama3-70B的1/19。Yuan 2.0-M32在MATH和ARC-Challenge基准测试中超过了Llama3-70B，准确率分别为55.89和95.8。Yuan 2.0-M32的模型和源代码在Github上发布。

http://arxiv.org/abs/2405.17976v1

数据集增长

深度学习受益于不断增长的可用数据。与此同时，有效地处理不断增长的数据规模已经成为一个挑战。公开可获取的数据来自不同来源，质量各异，在当今数据规模下，进行手动去噪和去冗余是不切实际的。已有的清洗/选择数据的技术主要针对离线设置，针对其中一种清洁度和冗余问题。但实际情况下，数据以指数速度增长，两个问题都存在。为了解决这一挑战，我们提出了InfoGrowth，一种用于数据清洗和选择的高效在线算法，从而产生一个与清洁度和多样性意识保持同步的不断增长的数据集。InfoGrowth可以提高单模态和多模态任务的数据质量/效率，具有高效且可伸缩的设计。其框架使其在真实世界数据引擎中实用。

http://arxiv.org/abs/2405.18347v1

语言崩溃：(大型) 语言模型中的神经崩溃

神经崩溃（NC）是在分类任务中观察到的现象，其中顶层表示塌缩为其类别均值，这些均值变得等模、等角且与分类器对齐。这些行为与泛化和鲁棒性相关，并在特定条件下表现出来：模型被训练朝着零损失，带有干净标签的均衡类别，这些类别不超出模型的隐藏维度。最近的研究在这些条件中一个或多个不存在时探索了NC，以扩展和利用理想几何的相关好处。语言建模是一个有趣的领域，因为通过标记预测训练构成了一个分类任务，其中没有这些条件存在：词汇不平衡且超出嵌入维度；不同标记可能对应相似的上下文嵌入；特别是大型语言模型（LLMs）通常只训练几个纪元。本文在因果语言模型（CLMs）的架构和训练规模上实证调查了缩放对它们向NC进展的影响。我们发现，随着缩放而发展的NC特性与泛化有关。此外，有证据表明在独立于规模的情况下，NC与泛化之间存在某种关系。因此，我们的工作强调了NC的普适性，它延伸到语言建模的新颖和更具挑战性的环境中。在下游，我们希望激发对这一现象的进一步研究，以加深对LLMs – 以及神经网络整体的了解，并基于NC相关属性改进现有架构。

http://arxiv.org/abs/2405.17767v1

超越固定训练时长的训练的缩放规律和计算优化

规模已经成为获取强大机器学习模型的主要因素。因此，理解模型的规模特性对于有效设计正确的训练设置和未来架构至关重要。本文认为，由于依赖余弦调度，规模和训练研究变得过于复杂，这阻碍了相同模型大小的不同长度的训练。我们研究了一种直接替代方案的训练行为——恒定学习率和冷却，发现它与余弦类似可预测和可靠地扩展。此外，我们发现随机权重平均可在训练轨迹上提供改进的性能，而无需额外的训练成本，适用于不同规模。重要的是，通过这些发现，我们展示了规模实验可以通过利用较少但可重复使用的训练运行大大减少计算和GPU小时。

http://arxiv.org/abs/2405.18392v1

预训练Transformer中的知识回路

摘要：现代大型语言模型的出色性能根植于其中参数编码的大量知识库，使其能够感知世界并进行推理。我们深入探讨语言模型的计算图，揭示了在表达特定知识方面发挥关键作用的知识电路。我们的实验证实了信息头、关系头和多层感知器在模型内部协同编码知识的方式。此外，我们评估了当前知识编辑技术对这些知识电路的影响，深入洞察了这些编辑方法的功能和限制。最后，我们利用知识电路分析和解释语言模型行为，例如幻觉和上下文学习。我们认为知识电路有潜力推动我们对Transformer的理解，并引导知识编辑方法的改进设计。源代码和数据可在https://github.com/zjunlp/KnowledgeCircuits 获取。

http://arxiv.org/abs/2405.17969v1

渐进一致性模型

最近，一致性模型（CM）在加速扩散模型的生成方面取得了重大进展。然而，在潜空间中进行高分辨率、文本条件图像生成（又称LCM）的应用仍然令人不满。在本文中，我们确定了LCM当前设计中的三个关键缺陷。我们研究了这些限制背后的原因，并提出了Phased Consistency Model（PCM），它泛化了设计空间并解决了所有确定的限制。我们的评估表明，PCM在1-16步骤生成设置中显著优于LCM。虽然PCM专为多步细化设计，但它实现了甚至优于之前的特定设计1步方法的1步生成结果。此外，我们展示了PCM的方法学是多才多艺的，并适用于视频生成，使我们能够训练出最先进的少步文本到视频生成器。更多详细信息请访问 https://g-u-n.github.io/projects/pcm/.

http://arxiv.org/abs/2405.18407v1

SMR：状态记忆重放用于长序列建模

尽管状态空间模型（SSMs）在长序列建模方面表现出色，但仍存在局限性。本文提出了一种新颖的非递归非均匀采样处理策略，用于克服并行卷积计算中的兼容性限制。理论分析揭示了事件触发控制（ETC）理论视角下的SSMs的非稳定状态问题，调整输入序列可以缓解该问题。引入了一种简单且有效的插入式机制，状态记忆重现（SMR），可实现一系列SSM模型的普适性。SMR机制对长序列建模任务的实验表明其普遍有效性。

http://arxiv.org/abs/2405.17534v1

学习物理定律的下一帧预测的力量

下一帧预测是一种用于建模和理解视频数据动态的有用和强大的方法。受因果语言建模和语言建模中下一个token预测的经验成功启发，我们探索下一帧预测在诱导对视觉世界理解方面作为一种强大的基础学习策略（类似于语言建模）的程度。为了量化下一帧预测诱导的具体视觉理解，我们提出了六个从基本物理定律派生的诊断仿真视频数据集，这些定律是通过改变重力和质量等物理常数创建的。我们证明，我们的模型仅训练在下一帧预测上能够预测这些物理常数的值（如重力），而没有直接通过回归任务训练来学习这些常数。我们发现，生成训练阶段单独诱导出的模型状态可以显著比随机模型更好地预测物理常数，将损失改善了1.28到6.24倍。我们得出结论，下一帧预测显示出作为一种泛化学习策略的巨大潜力，可以诱导理解统治视觉领域的许多’法则’，而无需明确标记的需要。

http://arxiv.org/abs/2405.17450v1

ORLM：为优化建模训练大语言模型

大语言模型（LLMs）已经成为强大的自动化优化建模操作研究（OR）工具，但目前的方法学主要依赖于提示工程（例如多智能体协作）与专有LLMs，引发了可能会在行业应用中具有限制性的数据隐私问题。为了解决这个问题，我们提议训练用于优化建模的开源LLMs。我们确定了OR LLMs训练数据集的四个关键要求，设计并实现了OR-Instruct，这是一个针对特定要求创建合成数据的半自动化过程。我们还引入了IndustryOR基准，这是首个用于测试LLMs解决实际OR问题的工业基准。我们应用来自OR-Instruct的数据到各种7b大小的开源LLMs（称为ORLMs），显著提高了优化建模能力。我们表现最佳的ORLM在NL4OPT、MAMO和IndustryOR基准上达到了最先进的性能。我们的代码和数据将在url{https://github.com/Cardinal-Operations/ORLM}上提供。