大模型日报(5月21日 学术篇)

特别活动

大模型日报(5月21日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月21日 学术篇)

论文

01

Octo:开源通用机器人策略

大型预先训练在各种机器人数据集上的策略具有改变机器人学习的潜力:而不是从头开始训练新策略,这种通用机器人策略可以仅用少量领域内数据进行微调,却能广泛泛化。然而,为了在各种机器人学习场景、环境和任务中广泛适用,这些策略需要处理各种传感器和动作空间,适应各种常用机器人平台,并能够快速高效地在新域中进行微调。在这项工作中,我们旨在为开发面向机器人操作的开源、广泛适用的通用策略奠定基础。作为第一步,我们介绍了Octo,一个基于800k个来自Open X-Embodiment数据集的轨迹进行训练的大型Transformer策略,这是迄今为止最大的机器人操作数据集。它可以通过语言命令或目标图像进行指导,并可以在标准消费级GPU上,在几小时内有效地对具有新感知输入和动作空间的机器人设置进行微调。在9个机器人平台的实验中,我们证明Octo作为一个多功能策略初始化,可以有效地微调到新的观测和动作空间。我们还对Octo模型的设计决策进行了详细的消融分析,从架构到训练数据,以指导未来建立通用机器人模型的研究。
大模型日报(5月21日 学术篇)http://arxiv.org/abs/2405.12213v1
02

OpenRLHF:一个易于使用、可扩展和高性能的语言模型强化学习框架

随着大型语言模型(LLM)按照规模定律不断增长,强化学习从人类反馈(RLHF)因其出色性能而备受关注。然而,与对单个模型进行预训练或微调不同,为了训练大型语言模型,将强化学习从人类反馈(RLHF)进行规模化存在四个模型之间的协调挑战。我们提出了OpenRLHF,一个开源框架,可实现有效的RLHF规模化。与现有的RLHF框架不同,后者在相同的GPU上合并四个模型,OpenRLHF通过使用Ray、vLLM和DeepSpeed重新设计模型的调度,利用改进的资源利用和多样化训练方法,实现了超过70B参数的规模化。OpenRLHF与Hugging Face无缝集成,提供优化算法和启动脚本,确保用户友好性。OpenRLHF实现了RLHF、DPO、拒绝抽样和其他对齐技术。OpenRLHF的代码可在https://github.com/OpenLLMAI/OpenRLHF找到。
大模型日报(5月21日 学术篇)http://arxiv.org/abs/2405.11143v1
03

Hummer: 有限大小的高竞争力偏好数据集

摘要:偏好数据集对于将人类偏好整合到预训练语言模型中至关重要,对于从人类反馈中进行强化学习成功起关键作用。然而,这些数据集往往表现出冲突的对齐目标,导致更容易受到越狱攻击的影响,并且在调整下游任务以优先考虑特定对齐目标而不会对其他目标产生负面影响方面面临挑战。在这项工作中,我们引入了一种新颖的统计度量标准,对齐维度冲突(Alignment Dimension Conflict),来量化偏好数据集中的冲突程度。然后我们介绍了Hummer及其精细化变种Hummer-F,作为具有减少冲突对齐目标的创新配对偏好数据集。  Hummer 基于UltraFeedback构建,并通过来自GPT-4的AI反馈进行增强,标志着第一个旨在减少对齐目标竞争的偏好数据集。此外,我们开发了奖励模型HummerRM和HummerRM-F,采用混合抽样方法有效平衡多样的对齐目标。这种抽样方法使HummerRM成为领域特定进一步微调和减少攻击漏洞的理想模型。
大模型日报(5月21日 学术篇)http://arxiv.org/abs/2405.11647v1
04

MathBench:通过分层数学基准评估LLM的理论和应用能力

最近大语言模型(LLMs)的进展展示了在数学领域的显著改进。然而,传统数学基准如GSM8k提供了一维视角,未能全面评估LLMs的数学能力。为填补这一差距,我们引入了MathBench,一个严格评估大型语言模型数学能力的新基准。MathBench涵盖了广泛的数学学科,提供了对理论理解和实际问题解决能力的详细评估。该基准包括五个不同阶段,从基础算术到大学数学,并结构化评估不同知识深度的模型。每个阶段都包括理论问题和应用问题,使我们能够衡量模型的数学熟练程度及其在实际情况下应用概念的能力。MathBench旨在提高对LLMs数学能力的评估,以在双语环境中提供对其知识理解水平和问题解决能力的细致认识。该项目发布在
https://github.com/open-compass/MathBench
大模型日报(5月21日 学术篇)http://arxiv.org/abs/2405.12209v1
05

MoRA:参数高效微调的高秩更新

低秩适应是大型语言模型的一种流行的参数高效微调方法。本文分析了LoRA中实现的低秩更新的影响。我们的研究发现,低秩更新机制可能限制了LLM有效学习和记忆新知识的能力。受到这一观察启发,我们提出了一种名为MoRA的新方法,它利用一个方阵实现高阶更新,同时保持相同数量的可训练参数。我们通过对指令微调、数学推理、持续预训练、记忆和预训练等五个任务的全面评估,发现我们的方法在记忆密集型任务上胜过LoRA,并在其他任务上达到可比较的性能。
大模型日报(5月21日 学术篇)http://arxiv.org/abs/2405.12130v1
06

朝向构建和重复使用LoRAs库以实现模块化LLM

随着基础大型语言模型(LLM)的参数高效适应增加,我们有必要研究是否可以重复利用这些经过训练的适配器来提高新任务的性能。我们研究了如何在多任务数据中最好地构建适配器库,并设计了通过在这种库中进行路由来进行零样本和监督任务泛化的技术。我们对构建此库的现有方法进行了基准测试,并引入了基于模型的聚类(MBC)方法,该方法根据其适配器参数的相似性将任务分组,间接优化跨多任务数据集的转移。为了重复使用库,我们提出了一种新颖的零样本路由机制Arrow,该机制能够动态选择对新输入最相关的适配器,而无需重新训练。我们在多个LLMs上进行了实验,如Phi-2和Mistral,在各种保留任务上进行了验证,证实了基于MBC的适配器和Arrow路由能够更好地泛化到新任务。我们在创建模块化、可适应的LLMs方面迈出了一步,这些LLMs可以匹敌甚至超越传统的联合训练。
大模型日报(5月21日 学术篇)http://arxiv.org/abs/2405.11157v1
07

TinyLLaVA Factory:小规模大型多模态模型的模块化代码库

我们介绍TinyLLaVA Factory,这是一个开源的模块化代码库,专注于简化代码实现、新功能的可扩展性和训练结果的可重现性,用于小规模大型多模态模型(LMMs)。遵循软件工程中工厂模式的设计理念,TinyLLaVA Factory将整个系统模块化为可互换的组件,每个组件集成了一套尖端模型和方法,同时为更多功能的扩展留出空间。除了允许用户定制自己的LMMs外,TinyLLaVA Factory还提供流行的训练配方,让用户在减少编码工作的同时对模型进行预训练和微调。实证实验证明了我们代码库的有效性。TinyLLaVA Factory的目标是帮助研究人员和实践者探索设计和训练小规模LMMs的广阔领域,同时利用可承受的计算资源。
大模型日报(5月21日 学术篇)http://arxiv.org/abs/2405.11788v1
08

MapCoder: 多智能体编码生成竞争性问题解决

代码合成需要深刻理解复杂的自然语言问题描述,生成复杂算法和数据结构的代码指令,并成功执行全面的单元测试,这是一个重大挑战。虽然大语言模型(LLMs)在自然语言处理方面表现出色,但它们在代码生成任务中的表现仍然有限。本文介绍了一种利用多智能体提示的代码生成任务新方法,独特地复制了程序合成的完整循环,如人类开发人员所观察到的。我们的框架MapCoder包括四个专门设计的LLM智能体,模拟了此循环的各个阶段:回忆相关示例、规划、代码生成和调试。通过进行深入实验,并在八个具有挑战性的竞争性问题解决和程序合成基准测试中进行多个LLM消融和分析,MapCoder展示了出色的代码生成能力,在HumanEval(93.9%)、MBPP(83.1%)、APPS(22.0%)、CodeContests(28.5%)和xCodeEval(45.3%)上取得了新的最先进结果(pass@1)。此外,我们的方法在不同编程语言和各种问题难度上始终提供优越性能。我们在https://github.com/Md-Ashraful-Pramanik/MapCoder上开源了我们的框架。
大模型日报(5月21日 学术篇)http://arxiv.org/abs/2405.11403v1
09

使用Prompt 回归进行提示探索

在大型语言模型(LLMs)的使用民主化的时代,人们越来越希望系统化LLM提示的生成和选择过程,超越迭代试错。之前的工作主要集中在搜索提示空间,而没有考虑提示变化之间的关系。在这里,我们提出了一个框架,Prompt Exploration with Prompt Regression (PEPR),通过预测提示组合的效果,基于单个提示元素的结果,以及一种简单的方法来为特定用例选择有效的提示。我们通过在多个不同任务上使用不同大小的开源LLMs来评估我们的方法。
大模型日报(5月21日 学术篇)http://arxiv.org/abs/2405.11083v1
HuggingFace&Github

01

Cover Agent

Cover Agent 是一个利 AI 技术来自动生成高质量测试用例的开源工具。它旨在提高软件项目的代码覆盖率,提升测试套件的完整性。该项目包含多个核心组件,如测试运行器、覆盖率解析器和 AI 测试生成器等,可以集成到各种 CI/CD 平台中使用。项目提供了 Python 和 Go 语言的示例使用场景,并计划在未来增加更多功能,如支持更多编程语言、提高测试生成的智能性以及改善用户体验等。

大模型日报(5月21日 学术篇)https://github.com/Codium-ai/cover-agent

02

Intro-llm-rag

本指南为对话式人工智能系统开发提供了全面的实践指南,涵盖了从基础理论到具体实现的各个方面。它介绍了大型语言模型(LLM)和检索增强型生成(RAG)技术的原理和应用,并深入探讨了prompt工程、嵌入向量、向量存储等相关概念。指南还提供了两个实践案例,包括在不同硬件平台上进行基准测试,以及将对话系统与Google Calendar集成实现预约功能。
https://github.com/zahaby/intro-llm-rag

推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15250.html

Like (0)
Previous 2024-05-21 10:40
Next 2024-05-22 19:43

相关推荐

  • 文献综述也可以自动化!(地铁上,顺便分享)

    你是否也为整理大量文献而烦恼,这几个开源工具或许会成为你的得力助手。 1. Liststudy https://github.com/NLeSC/litstudy Using th…

    2023-02-08
    245
  • 大模型日报(9月30日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-10-03
    299
  • 大模型日报(8月17~18日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-18
    260
  • 大模型日报(6月21日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-21
    221
  • 读博搞研究不用ChatGPT岂不可惜,GhatGPT牛刀小试之一决策树

    ChatGPT如此火爆,咱们就以实际工作来评价一下AI的能力,话不多说,以机器学习中的决策树开启这段旅程… 首先就以写代码的方式开始考察 1. 请生成一段以决策树为算法…

    2023-02-13
    193
  • 大模型日报(4月11日 学术篇)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 数据过滤的扩展定律 &#8212…

    2024-04-11
    198
  • 大模型日报(5月24日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-24
    183
  • 我动手尝试了TruthGPT,和ChatGPT相比…

    原来,伊隆马斯克大肆宣传的TruthGPT已经可以试用了!? 昨天发了一篇文章,《TruthGPT即将横空出世,ChatGPT害怕吗?》有好几个朋友私信给我说觉得很玄乎,实际上我在…

    2023-04-20
    216
  • ​ChatGPT已经是天花板了?来看看AutoGPT

    ChatGPT已经是天花板了? 朋友,它其实才刚上路,不信你见识一下AutoGPT… 接下来打算写几篇关于AutoGPT实践的文章,在展开之前,我们大概了解一下,什么是…

    2023-04-14
    145
  • 截止目前最全的ChatGPT调教指南!

    你会问问题吗? ChatGPT 中文调教指南如下 ChatGPT模型是由OpenAI训练的大型语言模型,能够生成类人文本。通过向它提供提示,它可以生成继续对话或扩展给定提示的响应。…

    2023-02-13
    224