我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!

论文
WARP: 关于加权平均奖励策略的好处
摘要:人类反馈强化学习(RLHF)通过鼓励大型语言模型(LLMs)生成高奖励内容,利用人类偏好训练的奖励模型来对齐它们。为了防止预训练知识的遗忘,RLHF通常包括KL正则化;这迫使策略保持接近其监督微调初始化,尽管它阻碍了奖励优化。为了解决KL和奖励之间的权衡,本文介绍了一种称为Weight Averaged Rewarded Policies(WARP)的新对齐策略。WARP在三个不同阶段在权重空间中合并策略。首先,它使用策略的指数移动平均作为KL正则化中的动态锚点。其次,它应用球形插值将独立微调的策略合并为一个新的增强模型。第三,它在这个合并模型和初始化之间进行线性插值,以恢复来自预训练的特征。然后迭代应用该过程,每次迭代的最终模型用作下一个迭代的高级初始化,逐渐优化KL-奖励帕累托前沿,实现在固定KL下获得卓越奖励。对GEMMA策略的实验证实,WARP改善了它们的质量和对齐性,胜过其他开源LLMs。
http://arxiv.org/abs/2406.16768v1
Adam-mini: 使用更少的学习率获得更多收益
我们提出了Adam-mini,这是一种优化器,其性能与AdamW相当或更好,但内存占用减少了45%至50%。Adam-mini通过减少Adam中学习率资源(即$1/sqrt{v}$)来减少内存占用。我们发现$v$中的$geq$ 90%的学习率可以在不损害性能的情况下移除,方法是:(1)根据我们提出的Hessian结构原则将参数分成块;(2)为每个参数块分配一个单一但较好的学习率。我们进一步发现,对于每个参数块,存在一个优质学习率可以胜过Adam,只要有足够的资源来搜索它。我们提供了一种成本效益的方法来找到好的学习率,并提出了Adam-mini。实验证明,Adam-mini在各种大小从125M到7B的语言模型上执行预训练、监督微调和RLHF时性能相当或更好。Adam-mini减少的内存占用也减轻了GPU和CPU之间的通信开销,从而增加了吞吐量。例如,当在$2times$ A800-80GB GPU上预训练Llama2-7B时,Adam-mini的吞吐量比AdamW提高了49.6%,节约了33%的预训练时间。
http://arxiv.org/abs/2406.16793v3
学习通过能量扩散进行迭代推理
我们介绍了通过能量扩散进行迭代推理(IRED),这是一个新颖的框架,通过能量优化来学习各种任务的推理,决策问题。IRED学习能量函数来表示输入条件和期望输出之间的约束。在训练后,IRED根据问题难度在推理过程中调整优化步数,使其能够解决培训分布之外的问题,如更复杂的数独难题、具有大值幅度的矩阵完成以及更大图中的路径规划。我们方法成功的关键在于两种新颖技术:学习一系列退火能量景观以便更容易推理,以及结合评分函数和能量景观监督以便更快速更稳定的训练。我们的实验表明,在连续空间推理、离散空间推理和规划任务中,IRED在更具挑战性的场景中优于现有方法。代码和可视化见https://energy-based-model.github.io/ired/
http://arxiv.org/abs/2406.11179v1
大语言模型代替人类评委?20个NLP评估任务的大规模实证研究
摘要:近年来评估NLP模型越来越倾向于使用LLM生成的判断,而非人类判断。在没有人类数据对比的情况下,这引发了对这些评估的有效性的担忧;如果使用专有模型进行评估,也会提出再现性的疑虑。我们提供了JUDGE-BENCH,这是一个包含20个带有人类注释的NLP数据集,全面评估了11种当前的LLM,涵盖了开放权重和专有模型,以查看它们复制注释的能力。我们的评估显示,每个LLM在与人类判断的相关性方面在数据集之间存在很大的差异。我们得出结论,LLM尚未准备好在NLP中系统地取代人类评判者。
http://arxiv.org/abs/2406.18403v1
分层上下文修剪:通过存储库级预训练代码LLM优化实际代码补全
最近开发的一些代码大语言模型(Code LLMs)已经在存储库级别的代码数据(Repo-Code LLMs)上进行了预训练,使得这些模型能够识别存储库结构并利用跨文件信息进行代码补全。然而,在实际开发场景中,简单地将整个代码存储库连接起来往往超过了这些Repo-Code LLMs的上下文窗口限制,导致性能显著下降。本研究在六个Repo-Code LLMs上进行了广泛的初步实验和分析。结果表明,保持文件的拓扑依赖并增加代码文件内容可以提高补全准确性;剪枝所有相关文件可显著减少补全的输入长度。基于这些发现,我们提出了一种名为Hierarchical Context Pruning(HCP)的策略,用于构建具有高信息代码内容的补全提示。HCP在函数级别对代码存储库进行建模,保持代码文件之间的拓扑依赖,同时去除大量不相关的代码内容,显著减少了存储库级别代码补全的输入长度。我们在六个Repo-Code LLMs的实验中应用了HCP策略,结果表明我们提出的方法可以显著提高补全准确性,同时大幅减少输入长度。我们的代码和数据可在https://github.com/Hambaobao/HCP-Coder获取。
http://arxiv.org/abs/2406.18294v1
符号学习实现自我进化智能体
摘要:人工智能社区一直在探索通过开发“语言智能体”实现人工通用智能(AGI)的途径。这些智能体是复杂的大语言模型(LLMs)管线,涉及提示技术和工具使用方法。尽管语言智能体展示了许多现实世界任务的令人印象深刻能力,但当前研究的基本限制是它们以模型为中心,即工程为中心。我们相信从以模型为中心或以工程为中心过渡到以数据为中心,即语言智能体具有在环境中自主学习和进化的能力,这是它们可能实现AGI的关键。
在这项工作中,我们介绍了智能体符号学习,这是一个系统框架,允许语言智能体以数据为中心的方式使用符号优化器自我优化。具体而言,我们将智能体视为符号网络,其中可学习的权重由提示、工具以及它们的堆叠方式定义。智能体符号学习旨在通过模仿连接主义学习中的两个基本算法:反向传播和梯度下降,优化语言智能体内的符号网络。智能体符号学习不涉及数值权重,而是使用权重、损失和梯度的自然语言仿拟。我们对标准基准和复杂实际任务进行了概念验证实验,表明智能体符号学习使语言智能体能够在创建和部署后自主更新,实现“自我进化智能体”。
http://arxiv.org/abs/2406.18532v1
APIGen: 用于生成可验证和多样化函数调用数据集的自动化流水线
智能体模型的进步需要多样化、可靠和高质量的数据集。本文介绍了APIGen,一个自动化数据生成管道,旨在为函数调用应用程序合成可验证的高质量数据集。我们利用APIGen搜集了21个不同类别中的3,673个可执行API,以规模化且结构化的方式生成多样化的函数调用数据集。我们的数据集中的每个数据都经过三个层次的验证:格式检查、实际函数执行和语义验证,确保其可靠性和正确性。我们展示了使用我们策划的数据集训练的模型,即使只有7B参数,也能在伯克利函数调用基准上取得最先进的性能,胜过多个GPT-4模型。此外,我们的1B模型表现出色,超越了GPT-3.5-Turbo和Claude-3 Haiku。我们发布了包含60,000个高质量条目的数据集,旨在推进函数调用智能体领域的发展。数据集可在Huggingface上获取:https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k,项目主页:https://apigen-pipeline.github.io/
http://arxiv.org/abs/2406.18518v1
使用可学习的后期交互实现高效文档排序
摘要:交叉编码器(CE)和双编码器(DE)模型是信息检索中用于预测查询-文档相关性的两种基础方法。最近,提出了一种新颖的可学习的后期交互模型(LITE),它能解决传统轻量级评分器无法解决的问题,并在领域内和零样本重新排序任务上表现优异。与ColBERT相比,LITE不仅具有更好的泛化能力,而且在延迟和存储上比ColBERT降低了0.25倍。
http://arxiv.org/abs/2406.17968v1
COMFYUI LLM PARTY
Comfyui_LLM_party是一个Node库项目,帮助用户在ComfyUI中快速构建基于大语言模型(LLM)的工作流。它允许用户方便地集成各种LLM模型,并提供了丰富的功能,包括知识图谱交互、代码执行、网络查询等。该项目支持多种LLM模型,如Ollama、Tongyi Qianwen和Zhipu Qingyan等,并提供了详细的使用说明。此外,它还实现了对话系统、个性化对话、多工具调用等高级功能,为用户构建自定义LLM应用程序提供了强大的支持。
https://github.com/heshengtao/comfyui_LLM_party
Patchwork
PatchWork 是一个开源框架,帮助用户使用大型语言模型自动执行各种开发工作,如 PR 审查、漏洞修复、代码生成等。它包含可重用的步骤、可自定义的提示模板,以及由这些组件构建的补丁流自动化。
PatchWork 可以在本地 CLI 和 IDE 中运行,也可以集成到 CI/CD 管道中。它提供了多种预定义的补丁流,并支持用户创建自定义的补丁流。安装方面,PatchWork 可通过 pip 或 Poetry 进行安装,并支持可选的依赖项组,为特定功能提供支持。
https://github.com/patched-codes/patchwork?tab=readme-ov-file
-
-
— END —
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14489.html