大模型日报（6月27日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

WARP: 关于加权平均奖励策略的好处

摘要：人类反馈强化学习（RLHF）通过鼓励大型语言模型（LLMs）生成高奖励内容，利用人类偏好训练的奖励模型来对齐它们。为了防止预训练知识的遗忘，RLHF通常包括KL正则化；这迫使策略保持接近其监督微调初始化，尽管它阻碍了奖励优化。为了解决KL和奖励之间的权衡，本文介绍了一种称为Weight Averaged Rewarded Policies（WARP）的新对齐策略。WARP在三个不同阶段在权重空间中合并策略。首先，它使用策略的指数移动平均作为KL正则化中的动态锚点。其次，它应用球形插值将独立微调的策略合并为一个新的增强模型。第三，它在这个合并模型和初始化之间进行线性插值，以恢复来自预训练的特征。然后迭代应用该过程，每次迭代的最终模型用作下一个迭代的高级初始化，逐渐优化KL-奖励帕累托前沿，实现在固定KL下获得卓越奖励。对GEMMA策略的实验证实，WARP改善了它们的质量和对齐性，胜过其他开源LLMs。

http://arxiv.org/abs/2406.16768v1

Adam-mini: 使用更少的学习率获得更多收益

我们提出了Adam-mini，这是一种优化器，其性能与AdamW相当或更好，但内存占用减少了45%至50%。Adam-mini通过减少Adam中学习率资源（即$1/sqrt{v}$）来减少内存占用。我们发现$v$中的$geq$ 90%的学习率可以在不损害性能的情况下移除，方法是：(1)根据我们提出的Hessian结构原则将参数分成块；(2)为每个参数块分配一个单一但较好的学习率。我们进一步发现，对于每个参数块，存在一个优质学习率可以胜过Adam，只要有足够的资源来搜索它。我们提供了一种成本效益的方法来找到好的学习率，并提出了Adam-mini。实验证明，Adam-mini在各种大小从125M到7B的语言模型上执行预训练、监督微调和RLHF时性能相当或更好。Adam-mini减少的内存占用也减轻了GPU和CPU之间的通信开销，从而增加了吞吐量。例如，当在$2times$ A800-80GB GPU上预训练Llama2-7B时，Adam-mini的吞吐量比AdamW提高了49.6%，节约了33%的预训练时间。

http://arxiv.org/abs/2406.16793v3

学习通过能量扩散进行迭代推理

我们介绍了通过能量扩散进行迭代推理（IRED），这是一个新颖的框架，通过能量优化来学习各种任务的推理，决策问题。IRED学习能量函数来表示输入条件和期望输出之间的约束。在训练后，IRED根据问题难度在推理过程中调整优化步数，使其能够解决培训分布之外的问题，如更复杂的数独难题、具有大值幅度的矩阵完成以及更大图中的路径规划。我们方法成功的关键在于两种新颖技术：学习一系列退火能量景观以便更容易推理，以及结合评分函数和能量景观监督以便更快速更稳定的训练。我们的实验表明，在连续空间推理、离散空间推理和规划任务中，IRED在更具挑战性的场景中优于现有方法。代码和可视化见https://energy-based-model.github.io/ired/

http://arxiv.org/abs/2406.11179v1

大语言模型代替人类评委？20个NLP评估任务的大规模实证研究

摘要：近年来评估NLP模型越来越倾向于使用LLM生成的判断，而非人类判断。在没有人类数据对比的情况下，这引发了对这些评估的有效性的担忧；如果使用专有模型进行评估，也会提出再现性的疑虑。我们提供了JUDGE-BENCH，这是一个包含20个带有人类注释的NLP数据集，全面评估了11种当前的LLM，涵盖了开放权重和专有模型，以查看它们复制注释的能力。我们的评估显示，每个LLM在与人类判断的相关性方面在数据集之间存在很大的差异。我们得出结论，LLM尚未准备好在NLP中系统地取代人类评判者。

http://arxiv.org/abs/2406.18403v1

分层上下文修剪：通过存储库级预训练代码LLM优化实际代码补全

最近开发的一些代码大语言模型（Code LLMs）已经在存储库级别的代码数据（Repo-Code LLMs）上进行了预训练，使得这些模型能够识别存储库结构并利用跨文件信息进行代码补全。然而，在实际开发场景中，简单地将整个代码存储库连接起来往往超过了这些Repo-Code LLMs的上下文窗口限制，导致性能显著下降。本研究在六个Repo-Code LLMs上进行了广泛的初步实验和分析。结果表明，保持文件的拓扑依赖并增加代码文件内容可以提高补全准确性；剪枝所有相关文件可显著减少补全的输入长度。基于这些发现，我们提出了一种名为Hierarchical Context Pruning（HCP）的策略，用于构建具有高信息代码内容的补全提示。HCP在函数级别对代码存储库进行建模，保持代码文件之间的拓扑依赖，同时去除大量不相关的代码内容，显著减少了存储库级别代码补全的输入长度。我们在六个Repo-Code LLMs的实验中应用了HCP策略，结果表明我们提出的方法可以显著提高补全准确性，同时大幅减少输入长度。我们的代码和数据可在https://github.com/Hambaobao/HCP-Coder获取。

http://arxiv.org/abs/2406.18294v1

符号学习实现自我进化智能体

摘要：人工智能社区一直在探索通过开发“语言智能体”实现人工通用智能（AGI）的途径。这些智能体是复杂的大语言模型（LLMs）管线，涉及提示技术和工具使用方法。尽管语言智能体展示了许多现实世界任务的令人印象深刻能力，但当前研究的基本限制是它们以模型为中心，即工程为中心。我们相信从以模型为中心或以工程为中心过渡到以数据为中心，即语言智能体具有在环境中自主学习和进化的能力，这是它们可能实现AGI的关键。

在这项工作中，我们介绍了智能体符号学习，这是一个系统框架，允许语言智能体以数据为中心的方式使用符号优化器自我优化。具体而言，我们将智能体视为符号网络，其中可学习的权重由提示、工具以及它们的堆叠方式定义。智能体符号学习旨在通过模仿连接主义学习中的两个基本算法：反向传播和梯度下降，优化语言智能体内的符号网络。智能体符号学习不涉及数值权重，而是使用权重、损失和梯度的自然语言仿拟。我们对标准基准和复杂实际任务进行了概念验证实验，表明智能体符号学习使语言智能体能够在创建和部署后自主更新，实现“自我进化智能体”。

http://arxiv.org/abs/2406.18532v1

APIGen: 用于生成可验证和多样化函数调用数据集的自动化流水线

智能体模型的进步需要多样化、可靠和高质量的数据集。本文介绍了APIGen，一个自动化数据生成管道，旨在为函数调用应用程序合成可验证的高质量数据集。我们利用APIGen搜集了21个不同类别中的3,673个可执行API，以规模化且结构化的方式生成多样化的函数调用数据集。我们的数据集中的每个数据都经过三个层次的验证：格式检查、实际函数执行和语义验证，确保其可靠性和正确性。我们展示了使用我们策划的数据集训练的模型，即使只有7B参数，也能在伯克利函数调用基准上取得最先进的性能，胜过多个GPT-4模型。此外，我们的1B模型表现出色，超越了GPT-3.5-Turbo和Claude-3 Haiku。我们发布了包含60,000个高质量条目的数据集，旨在推进函数调用智能体领域的发展。数据集可在Huggingface上获取：https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k，项目主页：https://apigen-pipeline.github.io/

http://arxiv.org/abs/2406.18518v1

使用可学习的后期交互实现高效文档排序

摘要：交叉编码器（CE）和双编码器（DE）模型是信息检索中用于预测查询-文档相关性的两种基础方法。最近，提出了一种新颖的可学习的后期交互模型（LITE），它能解决传统轻量级评分器无法解决的问题，并在领域内和零样本重新排序任务上表现优异。与ColBERT相比，LITE不仅具有更好的泛化能力，而且在延迟和存储上比ColBERT降低了0.25倍。

http://arxiv.org/abs/2406.17968v1

HuggingFace&Github

COMFYUI LLM PARTY

Comfyui_LLM_party是一个Node库项目,帮助用户在ComfyUI中快速构建基于大语言模型(LLM)的工作流。它允许用户方便地集成各种LLM模型,并提供了丰富的功能,包括知识图谱交互、代码执行、网络查询等。该项目支持多种LLM模型,如Ollama、Tongyi Qianwen和Zhipu Qingyan等,并提供了详细的使用说明。此外,它还实现了对话系统、个性化对话、多工具调用等高级功能,为用户构建自定义LLM应用程序提供了强大的支持。