大模型日报（8月21日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

To Code, or Not To Code？探讨预训练中代码的影响

摘要：在大语言模型的预训练中，即使是针对非代码设计的模型，将代码包含在数据混合中已经成为一种常见做法。虽然从业者之间普遍认为代码数据在一般LLM性能中起着至关重要的作用，但只有有限的研究分析了代码对非代码任务的确切影响。在本研究中，我们系统地调查了代码数据对一般性能的影响。我们提出了一个问题：“代码数据在预训练中对超出代码生成之外的大量下游任务的影响是什么”。我们进行了广泛的消融实验，并在广泛的自然语言推理任务，世界知识任务，代码基准测试以及LLM作为评委的比赛中进行评估，模型参数范围从4.7亿到28亿个之间。在各种设置中，我们发现代码是泛化的关键基础，远远超出了编码任务，并且提高代码质量对所有任务都有很大影响。尤其是，与仅文本预训练相比，添加代码可使自然语言推理提高最高达8.2%，世界知识提高4.2%，生成式比赛胜率提高6.6%，代码性能提升12倍。我们的研究表明，投资代码质量并在预训练过程中保留代码具有积极影响。

http://arxiv.org/abs/2408.10914v1

Scaling Law with Learning Rate Annealing

我们发现神经语言模型的交叉熵损失曲线实际上遵循着学习率(LR)随训练步骤($$$$)调整的缩放定律：$$L(s) = L_0 + Acdot S_1^{-alpha} – Ccdot S_2$$ 其中$S_1$是前向区域，$S_2$是学习率调整区域。这个公式考虑了两个因素：(1) 前向缩放定义为典型的缩放定律，以及(2) 学习率调整带来的额外损失降低。因此，这个公式可以描述每一步的完整损失曲线，而不是训练结束时的单个损失点。应用LR退火的缩放定律并拟合一个或两个训练曲线，我们可以准确预测任何给定步骤和任何学习率调度器(LRS)下语言模型训练的损失。此外，这个方程准确描述了训练过程中的动态，并为先前研究的许多实验发现提供了理论验证和解释，特别是那些关注LR调度和LR退火的研究。由此产生的见解也为研究人员提前选择关键的LRS提供了指导，通过使用我们的方程进行预测。最重要的是，由于完整训练曲线中的所有点都遵循该方程，我们可以在任何给定步骤和任何学习率调度器下实现准确的损失预测，而只需花费chinshilla缩放定律拟合语言建模损失所需计算成本的不到1%。这种方法极大地推动了在开发大型语言模型中的缩放定律拟合和预测的民主化。

http://arxiv.org/abs/2408.11029v1

SysBench：大语言模型能够跟随系统消息吗？

大型语言模型(LLMs)已经成为各种应用的重要工具，定制这些模型以适应特定场景变得日益关键。系统消息是LLMs的基本组成部分，由精心设计的指令组成，指导模型的行为以达到预期目标。尽管人们认识到系统消息对优化基于AI的解决方案的潜力，但目前缺乏一个全面的基准来评估不同LLMs如何遵循这些系统消息。为了填补这一空白，我们引入了SysBench，一个基准测试，以三个具有挑战性的方面评估系统消息遵循能力：约束复杂性、指令不一致和多轮稳定性。为了实现有效评估，SysBench构建了基于真实场景中系统消息六种常见类型约束的多轮用户对话，包括各种交互关系。我们的数据集包含来自各个领域的500条系统消息，每个消息配对5轮用户对话，经过手工制定和检查以确保质量。SysBench在各种LLMs上进行广泛评估，衡量它们根据系统消息中给定的指定约束所能遵循的能力。结果突出了现有模型的优势和劣势，提供了未来研究的关键见解和方向。开源库SysBench可在https://github.com/PKU-Baichuan-MLSystemLab/SysBench上获取。

http://arxiv.org/abs/2408.10943v1

HMoE：用于语言建模的异质专家混合

摘要：混合专家模型 (MoE) 通过选择性地激活模型参数子集，提供了显著的性能和计算效率。传统上，MoE模型使用同质的专家，每个专家具有相同的能力。然而，输入数据的复杂性变化需要具有不同能力的专家，而同质的MoE阻碍了有效的专家专业化和高效的参数利用。在本研究中，我们提出了一种新颖的异构专家混合模型 (HMoE)，其中专家在大小上有所不同，因此具有不同的能力。这种异质性允许更专业化的专家更有效地处理不同的token复杂性。为了解决专家激活不平衡问题，我们提出了一种新颖的训练目标，鼓励更频繁地激活较小的专家，增强计算效率和参数利用。大量实验证明，HMoE在更少激活参数的情况下实现了更低的损失，并在各种预训练评估基准上优于传统的同质MoE模型。代码将在接受后发布。

http://arxiv.org/abs/2408.10681v1

从非结构化文本中的价值对齐

摘要：在人工智能和自然语言处理领域，将大型语言模型（LLMs）与价值观对齐成为一个重要的研究领域。目前，这一对齐过程依赖于高质量的监督和偏好数据，而筹集和标注这些数据可能既耗时又昂贵。本文提出了一种系统的端到端方法，将LLMs与非结构化文本数据中体现的隐性和显性价值观对齐。我们的方法利用可伸缩的合成数据生成技术，有效地将模型与非结构化数据中的价值观对齐。通过两个不同的用例，我们展示了我们的方法在Mistral-7B-Instruct模型上的效率。我们的方法可靠地将LLMs与文档中嵌入的价值观对齐，并显示出比其他方法更好的性能，通过自动指标和胜率来量化。

http://arxiv.org/abs/2408.10392v1

CodeJudge-Eval：大语言模型能成为代码理解的良好评判者吗？

最近大语言模型（LLMs）的进展展示了令人印象深刻的代码生成能力，主要通过语言到代码的基准测试进行评估。然而，这些基准测试可能并不能完全捕捉模型对代码的理解能力。我们引入了一个新颖的基准测试CodeJudge-Eval（CJ-Eval），旨在从代码判断的角度而非代码生成的角度评估LLMs的代码理解能力。CJ-Eval挑战模型确定提供的代码解决方案的正确性，涵盖各种错误类型和编译问题。通过利用多样化的问题和精细化的判断系统，CJ-Eval解决了传统基准测试的局限，包括潜在的解决方案记忆问题。在CJ-Eval上对12个知名LLMs的评估显示，即使是最先进的模型也面临困难，突显了该基准测试深入探究模型代码理解能力的能力。我们的基准测试将在url{https://github.com/CodeLLM-Research/CodeJudge-Eval}上提供。

http://arxiv.org/abs/2408.10718v1

Transfusion：用一个多模型模型预测下一个 token 并传播图像

我们介绍了Transfusion，这是一个用于训练多模态模型的方法，可以处理离散和连续数据。Transfusion将语言建模损失函数（下一个token的预测）与扩散结合起来，用于训练混合模态序列上的单个Transformer。我们从零开始在混合文本和图像数据上预训练了多个Transfusion模型，达到了7B参数，建立了与各种单模和交叉模态基准的比例律。我们的实验表明，Transfusion比量化图像并在离散图像token上训练语言模型要好得多。通过引入模态特定的编码和解码层，我们可以进一步提高Transfusion模型的性能，甚至将每个图像压缩到仅16个补丁。我们进一步证明，将我们的Transfusion方法扩展到7B参数和2T多模态token会产生一个能够生成图像和文本的模型，与类似规模的扩散模型和语言模型相媲美，获得了两个世界的好处。