大模型日报（5月30日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

MAP-Neo：高效能透明的双语大语言模型系列

大语言模型（LLMs）近年来取得了巨大进展，实现了在不同任务上的前所未有性能。然而，由于商业利益，像GPT、Gemini和Claude这样最具竞争力的模型被封闭在专有界面中，没有披露训练细节。最近，许多机构已经开源了几个强大的LLMs，如LLaMA-3，与现有的闭源LLMs相媲美。为了提高LLMs的透明度，研究社区已经开始开源真正开放的LLMs（如Pythia、Amber、OLMo），其中提供了更多细节。这些模型极大地推动了对这些大型模型的科学研究，包括它们的优势、弱点、偏见和风险。然而，我们观察到针对推理、知识和编码任务的现有真正开放的LLMs仍然不及具有类似模型大小的现有最先进的LLMs。为此，我们开源了MAP-Neo，一个高性能、透明的双语语言模型，拥有从头开始训练的7B参数，在4.5T高质量标记上进行了训练。我们的MAP-Neo是第一个具有类似性能的完全开源双语LLM。此外，我们公开了所有细节，以重现我们的MAP-Neo，提供了清洁的预训练语料库、数据清洗管道、检查点以及经过良好优化的训练/评估框架。最后，我们希望我们的MAP-Neo能够增强和加强开放研究社区，并激发更多的创新和创造力，促进LLMs的进一步改进。

http://arxiv.org/abs/2405.19327v1

弱到强搜索：通过在小语言模型上搜索来对齐大语言模型

大语言模型通常会通过微调来与人类偏好对齐。然而，微调大型语言模型可能具有挑战性。在这项工作中，我们介绍了“从弱到强的搜索”，将大型语言模型的对齐视为一种在测试时贪婪搜索，以最大化小型调整过和未调整过模型之间的对数似然差异，同时从冻结的大模型中进行采样。这种方法既可以作为（i）一种计算效率模型升级策略，避免直接调整大模型，又可以作为（ii）增强强大模型的弱测试时指导的一种从弱到强泛化的示例。在实证上，我们展示了从弱到强搜索在不同任务上的灵活性。在受控情感生成和总结方面，我们使用调整和未调整的gpt2有效地改善了大型模型的对齐情况，而无需额外训练。至关重要的是，在一个更具挑战性的指令遵循基准测试AlpacaEval 2.0中，我们展示了重新使用现成的小模型对（例如zephyr-7b-beta及其未调整版本）可以显著改善白盒和黑盒大模型对抗gpt-4-turbo（例如对于Llama-3-70B-Instruct，从34.4提高到37.9，对于gpt-3.5-turbo-instruct，从16.0提高到20.1），尽管小模型的胜率低约10.0。

http://arxiv.org/abs/2405.19262v1

在算数上预训练的大语言模型能预测人类风险和时间选择

观察到人类和大语言模型（LLMs）行为的相似性促使研究人员考虑将LLMs用作人类认知的模型。然而，在LLMs被正当地视为认知模型之前，必须解决一些重要挑战。本文提出了一种增强LLMs作为认知模型实用性的新方法。这种方法涉及（i）利用计算上等效的任务，LLM和智能体都需要掌握才能解决认知问题，以及（ii）研究LLM展现人类行为所需的特定任务分布。我们将这种方法应用于决策制定 – 具体来说是冒险和跨时间选择 – 其中关键的计算上等效任务是预期价值计算的算术。我们发现，预训练在一个生态有效的算术数据集上的LLM，我们称之为算术-GPT，比许多传统认知模型更好地预测人类行为。在生态有效的算术数据集上预训练LLMs足以产生这些模型与人类决策制定之间的强关联。我们的结果还表明，将LLMs用作认知模型时，应通过去除预训练数据的研究进行仔细调查。

http://arxiv.org/abs/2405.19313v1

OMPO：一个统一的框架，用于处理智能体在政策和动态变化下的强化学习

摘要：使用来自不同策略或动态收集的环境交互数据来训练强化学习策略面临着基本挑战。现有作品经常忽视由策略或动态转移引起的分布差异，或依赖具有任务先验知识的专门算法，因此通常导致次优策略性能和高学习方差。在本文中，我们确定了一种统一的策略在线强化学习策略学习方法，适用于各种策略和动态转移设置：过渡占用匹配。基于此，我们通过考虑过渡占用差异引入了一个替代策略学习目标，然后通过双重重构将其构建为一个可解的极小化最大化优化问题。我们的方法，名为占用匹配策略优化（OMPO），具有专门的演员-评论家结构，配备分布鉴别器和小型本地缓冲区。我们基于OpenAI Gym，Meta-World和Panda Robots环境进行了广泛的实验，涵盖了在稳态和非稳态动态下的策略转移，以及领域适应。结果表明，OMPO在所有设置中均优于不同类别的专门基线。我们还发现，OMPO与领域随机化结合时表现特别强劲，突显了其在基于RL的机器人应用中的潜力。

http://arxiv.org/abs/2405.19080v1

通过猜测解码实现更快的级联推测

摘要：级联和投机解码是提高语言模型推理效率的两种常见方法。这两种方法都涉及交错使用不同大小的模型，但通过基本不同的机制：级联采用推迟规则，仅对“困难”输入调用更大的模型，而投机解码使用投机执行方式，主要以并行验证模式调用更大的模型。这些机制提供不同的好处：实证上，级联通常能产生比更大模型甚至更好的质量，理论上，投机解码提供了质量中性的保证。在本文中，我们通过设计新的投机级联技术，实现了这两种方法的最佳组合，通过投机执行来实现它们的推迟规则。我们对我们的投机级联进行了最佳推迟规则的特征化，并采用了最佳规则的插件近似。通过在基准语言任务上使用T5模型进行实验，我们展示了所提出的方法比级联和投机解码基线产生了更好的成本-质量权衡。

http://arxiv.org/abs/2405.19261v1

再谈FP8：减少精度对LLM训练稳定性的影响量化

摘要：大语言模型（LLM）预训练所需的巨大计算成本促使人们对减少精度的浮点表示方法产生极大兴趣，以加快该过程。因此，BrainFloat16（BF16）精度已成为LLM训练的事实上的标准，最新处理器甚至推出FP8。然而，对于不稳定性较大的FP16的先前经验引发了对FP8是否可以作为LLM训练的经济替代选项的担忧。我们认为，减少精度的训练方案必须具有与高精度对应物类似的训练稳定性和超参数敏感性，以实现经济性。然而，我们发现当前的FP8训练方法还不够稳健，无法作为经济替代品使用。这促使我们研究减少精度LLM训练的稳定性，包括对不同随机种子和学习速率的鲁棒性。为此，我们提出了新的评估技术和用于量化自回归语言模型的损失景观陡峭度的新度量标准。通过在浮点表示中模拟逐步减少比特位数，我们分析了表示能力与训练稳定性之间的关系，旨在帮助未来进一步研究该领域。

http://arxiv.org/abs/2405.18710v1

无调谐的扩散模型与直接噪声优化的对齐

在这项工作中，我们关注扩散模型与连续奖励函数的对齐问题，该函数代表了下游任务的具体目标，例如改善人类偏好。对齐问题的中心目标是调整扩散模型学习的分布，使生成的样本最大化目标奖励函数。我们提出了一种新颖的对齐方法，名为直接噪声优化（DNO），该方法优化了扩散模型采样过程中注入的噪声。通过设计，DNO是无需微调且与提示无关的，因为对齐是在生成过程中以在线方式发生的。我们严格研究了DNO的理论特性，并提出了处理非可微分奖励函数的变体。此外，我们发现，DNO的朴素实现偶尔会出现超出分布奖励欺骗问题，优化样本具有高奖励，但不再在预训练分布的支持范围内。为了解决这个问题，我们利用经典的高维统计理论，提出使用特定概率正则化增强DNO损失。我们在几种受欢迎的以人类反馈数据训练的奖励函数上进行了广泛实验，并展示所提出的DNO方法在合理的生成时间预算内实现了最先进的奖励分数以及高图像质量。

http://arxiv.org/abs/2405.18881v1

HuggingFace&Github

FlashRAG

FlashRAG 是一个用于高效进行检索增强型生成 (RAG) 研究的 Python 工具包。它提供了广泛和可定制的框架、大量的预处理基准数据集、12 种先进的 RAG 算法实现，以及优化的预处理和执行效率等功能。通过使用 FlashRAG ，研究人员可以轻松复现现有的最先进工作，并实现自定义的 RAG 流程和组件。

https://github.com/RUC-NLPIR/FlashRAG

Ocular AI

Ocular AI 是一个帮助组织构建强大、可靠和高性能的生成式 AI 驱动搜索平台的模块和工具集。它提供了类似谷歌的搜索界面、应用程序集成、自定义数据源连接器、可定制的基础设施等功能，并包含了治理引擎。Ocular 既有开源版本，也提供托管的云服务和企业级的自托管解决方案。使用 Docker 可以快速在本地部署运行 Ocular，只需配置好底层的语言模型 API 密钥即可开始使用。

https://github.com/OcularEngineering/ocular