大模型日报(6月27日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月27日 学术篇)

论文

01

WARP: 关于加权平均奖励策略的好处

摘要:人类反馈强化学习(RLHF)通过鼓励大型语言模型(LLMs)生成高奖励内容,利用人类偏好训练的奖励模型来对齐它们。为了防止预训练知识的遗忘,RLHF通常包括KL正则化;这迫使策略保持接近其监督微调初始化,尽管它阻碍了奖励优化。为了解决KL和奖励之间的权衡,本文介绍了一种称为Weight Averaged Rewarded Policies(WARP)的新对齐策略。WARP在三个不同阶段在权重空间中合并策略。首先,它使用策略的指数移动平均作为KL正则化中的动态锚点。其次,它应用球形插值将独立微调的策略合并为一个新的增强模型。第三,它在这个合并模型和初始化之间进行线性插值,以恢复来自预训练的特征。然后迭代应用该过程,每次迭代的最终模型用作下一个迭代的高级初始化,逐渐优化KL-奖励帕累托前沿,实现在固定KL下获得卓越奖励。对GEMMA策略的实验证实,WARP改善了它们的质量和对齐性,胜过其他开源LLMs。
大模型日报(6月27日 学术篇)http://arxiv.org/abs/2406.16768v1
02

Adam-mini: 使用更少的学习率获得更多收益

我们提出了Adam-mini,这是一种优化器,其性能与AdamW相当或更好,但内存占用减少了45%至50%。Adam-mini通过减少Adam中学习率资源(即$1/sqrt{v}$)来减少内存占用。我们发现$v$中的$geq$ 90%的学习率可以在不损害性能的情况下移除,方法是:(1)根据我们提出的Hessian结构原则将参数分成块;(2)为每个参数块分配一个单一但较好的学习率。我们进一步发现,对于每个参数块,存在一个优质学习率可以胜过Adam,只要有足够的资源来搜索它。我们提供了一种成本效益的方法来找到好的学习率,并提出了Adam-mini。实验证明,Adam-mini在各种大小从125M到7B的语言模型上执行预训练、监督微调和RLHF时性能相当或更好。Adam-mini减少的内存占用也减轻了GPU和CPU之间的通信开销,从而增加了吞吐量。例如,当在$2times$ A800-80GB GPU上预训练Llama2-7B时,Adam-mini的吞吐量比AdamW提高了49.6%,节约了33%的预训练时间。
大模型日报(6月27日 学术篇)http://arxiv.org/abs/2406.16793v3
03

学习通过能量扩散进行迭代推理

我们介绍了通过能量扩散进行迭代推理(IRED),这是一个新颖的框架,通过能量优化来学习各种任务的推理,决策问题。IRED学习能量函数来表示输入条件和期望输出之间的约束。在训练后,IRED根据问题难度在推理过程中调整优化步数,使其能够解决培训分布之外的问题,如更复杂的数独难题、具有大值幅度的矩阵完成以及更大图中的路径规划。我们方法成功的关键在于两种新颖技术:学习一系列退火能量景观以便更容易推理,以及结合评分函数和能量景观监督以便更快速更稳定的训练。我们的实验表明,在连续空间推理、离散空间推理和规划任务中,IRED在更具挑战性的场景中优于现有方法。代码和可视化见https://energy-based-model.github.io/ired/
大模型日报(6月27日 学术篇)http://arxiv.org/abs/2406.11179v1
04

大语言模型代替人类评委?20个NLP评估任务的大规模实证研究

摘要:近年来评估NLP模型越来越倾向于使用LLM生成的判断,而非人类判断。在没有人类数据对比的情况下,这引发了对这些评估的有效性的担忧;如果使用专有模型进行评估,也会提出再现性的疑虑。我们提供了JUDGE-BENCH,这是一个包含20个带有人类注释的NLP数据集,全面评估了11种当前的LLM,涵盖了开放权重和专有模型,以查看它们复制注释的能力。我们的评估显示,每个LLM在与人类判断的相关性方面在数据集之间存在很大的差异。我们得出结论,LLM尚未准备好在NLP中系统地取代人类评判者。
大模型日报(6月27日 学术篇)http://arxiv.org/abs/2406.18403v1
05

分层上下文修剪:通过存储库级预训练代码LLM优化实际代码补全

最近开发的一些代码大语言模型(Code LLMs)已经在存储库级别的代码数据(Repo-Code LLMs)上进行了预训练,使得这些模型能够识别存储库结构并利用跨文件信息进行代码补全。然而,在实际开发场景中,简单地将整个代码存储库连接起来往往超过了这些Repo-Code LLMs的上下文窗口限制,导致性能显著下降。本研究在六个Repo-Code LLMs上进行了广泛的初步实验和分析。结果表明,保持文件的拓扑依赖并增加代码文件内容可以提高补全准确性;剪枝所有相关文件可显著减少补全的输入长度。基于这些发现,我们提出了一种名为Hierarchical Context Pruning(HCP)的策略,用于构建具有高信息代码内容的补全提示。HCP在函数级别对代码存储库进行建模,保持代码文件之间的拓扑依赖,同时去除大量不相关的代码内容,显著减少了存储库级别代码补全的输入长度。我们在六个Repo-Code LLMs的实验中应用了HCP策略,结果表明我们提出的方法可以显著提高补全准确性,同时大幅减少输入长度。我们的代码和数据可在https://github.com/Hambaobao/HCP-Coder获取。
大模型日报(6月27日 学术篇)http://arxiv.org/abs/2406.18294v1
06

符号学习实现自我进化智能体

摘要:人工智能社区一直在探索通过开发“语言智能体”实现人工通用智能(AGI)的途径。这些智能体是复杂的大语言模型(LLMs)管线,涉及提示技术和工具使用方法。尽管语言智能体展示了许多现实世界任务的令人印象深刻能力,但当前研究的基本限制是它们以模型为中心,即工程为中心。我们相信从以模型为中心或以工程为中心过渡到以数据为中心,即语言智能体具有在环境中自主学习和进化的能力,这是它们可能实现AGI的关键。
在这项工作中,我们介绍了智能体符号学习,这是一个系统框架,允许语言智能体以数据为中心的方式使用符号优化器自我优化。具体而言,我们将智能体视为符号网络,其中可学习的权重由提示、工具以及它们的堆叠方式定义。智能体符号学习旨在通过模仿连接主义学习中的两个基本算法:反向传播和梯度下降,优化语言智能体内的符号网络。智能体符号学习不涉及数值权重,而是使用权重、损失和梯度的自然语言仿拟。我们对标准基准和复杂实际任务进行了概念验证实验,表明智能体符号学习使语言智能体能够在创建和部署后自主更新,实现“自我进化智能体”。
大模型日报(6月27日 学术篇)http://arxiv.org/abs/2406.18532v1
07

APIGen: 用于生成可验证和多样化函数调用数据集的自动化流水线

智能体模型的进步需要多样化、可靠和高质量的数据集。本文介绍了APIGen,一个自动化数据生成管道,旨在为函数调用应用程序合成可验证的高质量数据集。我们利用APIGen搜集了21个不同类别中的3,673个可执行API,以规模化且结构化的方式生成多样化的函数调用数据集。我们的数据集中的每个数据都经过三个层次的验证:格式检查、实际函数执行和语义验证,确保其可靠性和正确性。我们展示了使用我们策划的数据集训练的模型,即使只有7B参数,也能在伯克利函数调用基准上取得最先进的性能,胜过多个GPT-4模型。此外,我们的1B模型表现出色,超越了GPT-3.5-Turbo和Claude-3 Haiku。我们发布了包含60,000个高质量条目的数据集,旨在推进函数调用智能体领域的发展。数据集可在Huggingface上获取:https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k,项目主页:https://apigen-pipeline.github.io/
大模型日报(6月27日 学术篇)http://arxiv.org/abs/2406.18518v1
08

使用可学习的后期交互实现高效文档排序

摘要:交叉编码器(CE)和双编码器(DE)模型是信息检索中用于预测查询-文档相关性的两种基础方法。最近,提出了一种新颖的可学习的后期交互模型(LITE),它能解决传统轻量级评分器无法解决的问题,并在领域内和零样本重新排序任务上表现优异。与ColBERT相比,LITE不仅具有更好的泛化能力,而且在延迟和存储上比ColBERT降低了0.25倍。

大模型日报(6月27日 学术篇)http://arxiv.org/abs/2406.17968v1

HuggingFace&Github

01

COMFYUI LLM PARTY

Comfyui_LLM_party是一个Node库项目,帮助用户在ComfyUI中快速构建基于大语言模型(LLM)的工作流。它允许用户方便地集成各种LLM模型,并提供了丰富的功能,包括知识图谱交互、代码执行、网络查询等。该项目支持多种LLM模型,如Ollama、Tongyi Qianwen和Zhipu Qingyan等,并提供了详细的使用说明。此外,它还实现了对话系统、个性化对话、多工具调用等高级功能,为用户构建自定义LLM应用程序提供了强大的支持。
大模型日报(6月27日 学术篇)https://github.com/heshengtao/comfyui_LLM_party
02

Patchwork

PatchWork 是一个开源框架,帮助用户使用大型语言模型自动执行各种开发工作,如 PR 审查、漏洞修复、代码生成等。它包含可重用的步骤、可自定义的提示模板,以及由这些组件构建的补丁流自动化。
PatchWork 可以在本地 CLI 和 IDE 中运行,也可以集成到 CI/CD 管道中。它提供了多种预定义的补丁流,并支持用户创建自定义的补丁流。安装方面,PatchWork 可通过 pip 或 Poetry 进行安装,并支持可选的依赖项组,为特定功能提供支持。
大模型日报(6月27日 学术篇)https://github.com/patched-codes/patchwork?tab=readme-ov-file
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14489.html

Like (0)
Previous 2024-06-27 21:59
Next 2024-06-28 12:00

相关推荐

  • AI学术 | Research Rabbit 5分钟挖掘研究领域的文献和作者网络

    通过Research Rabbit (RR),只需要5分钟,即可快速挖掘和追踪你研究领域的文献和作者网络,最为关键的是,这个由AI驱动的工具,持续免费! 想象一下不断反复的场景,当…

    2023-07-03
    1.3K
  • 大模型日报(5月28日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-28
    165
  • 与ChatGPT双向沟通,三步获得文献Idea!

    该文章分为两部分, 前一部分(1~4)为近期背景,即关于ChatGPT在研究和教育方面的事件; 后一部分(5)为ChatGPT在文献阅读的案例分享。 1. 近期背景: 1. 1如下…

    2023-03-10
    173
  • 用ChatGPT薅羊毛,月入过十万?

    到周末了,让我们暂时抛开技术本身,闲聊一下关于ChatGPT不可回避话题:撸羊毛。 ChatGPT的出现,似乎意味着人类所面临的真正挑战终于到来了。作为新一代的聊天机器人程序,Ch…

    2023-03-26
    131
  • 大模型日报(8月13日 学术篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-13
    243
  • 大模型日报(4月20~21日 学术篇)

    欢迎观看大模型日报,进入大模型日报群和空间站(活动录屏复盘聚集地)请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 学习 01 如何看待 Meta 发布 …

    2024-04-21
    187
  • 大模型日报(9月27日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-27
    232
  • 大模型日报(4月12日 学术篇)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 RecurrentGemma:超…

    2024-04-12
    118
  • AI 学术| Consensus 三秒让你从海量文献直接找到答案!

    你只需知道想研究的问题是什么,Consensus就能够帮你从海量的文献中,找到问题的答案! 学术研究的常规路径,通过关键词,找文献,再阅读文献摘要决定是否需要进一步阅读,如果是,再…

    2023-07-02
    172
  • 大模型日报(7月3日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-03
    246