大模型日报(4月29日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(4月29日 学术篇)

论文

01

用于涌现和缩放定律的可解模型

深度学习模型可能表现出突然解决新问题的能力,这种现象被称为涌现。本文提出一个框架,将每种新能力(技能)表示为一个基函数。我们在这个技能基础上解决了一个简单的多线性模型,找到了新技能的涌现以及损失随着训练时间、数据大小、模型大小和最优计算能力的尺度律的解析表达式。我们将详细计算结果与直接模拟两层神经网络在多任务稀疏奇偶性训练的结果进行比较,其中数据集中的任务按照幂律分布。我们的简单模型使用一个拟合参数捕捉了神经网络中随着训练时间、数据大小或模型大小增加而出现多个新技能的S形涌现。
大模型日报(4月29日 学术篇)http://arxiv.org/abs/2404.17563v1
02

AdvPrompter: 快速自适应生成 LLM 对抗提示词方法

摘要:最近,大语言模型(LLMs)取得了显著成就,但它们容易受到某些越狱攻击的影响,导致生成不当或有害内容。手动红组测试需要找到导致越狱的敌对提示,例如在给定指令后附加后缀,效率低且耗时。在另一方面,自动敌对提示生成通常导致语义无意义的攻击,可以轻松被感知度过滤器检测到,可能需要来自TargetLLM的梯度信息,或由于耗时的离散优化过程而无法很好地扩展。在本文中,我们提出了一种新方法,使用另一个LLM,称为AdvPrompter,仅需几秒钟生成人类可读的敌对提示,比现有基于优化的方法快约800倍。我们使用一种无需访问目标LLM梯度的新算法对AdvPrompter进行训练。此过程交替进行两个步骤:(1)通过优化AdvPrompter预测生成高质量的目标敌对后缀,以及(2)使用生成的敌对后缀对AdvPrompter进行低秩微调。经过训练的AdvPrompter生成的后缀掩盖了输入指令而不改变其含义,因此TargetLLM被诱导提供有害响应。对流行的开源TargetLLMs的实验结果显示AdvBench数据集上的最新成果,也可转移到闭源的黑盒LLM API。此外,我们证明通过对AdvPrompter生成的合成数据集进行微调,可以使LLMs更加抵御越狱攻击而保持性能,即高MMLU得分。
大模型日报(4月29日 学术篇)http://arxiv.org/abs/2404.16873v1
03

玩家驱动的智能体在LLM驱动的游戏叙事中的涌现

我们探讨了与大语言模型(LLMs)互动如何产生涌现行为,使玩家能够参与游戏叙事的演变。我们的实验是在一个文本冒险游戏中,玩家在固定叙事前提下尝试解决谜团,但可以自由与由大语言模型GPT-4生成的非玩家角色进行互动。我们招募了28名玩家参与游戏,并使用GPT-4自动转换游戏日志,生成玩家游戏过程中叙事的节点图。我们发现,通过与LLM的非确定性行为互动,玩家能够发现有趣的新涌现节点,这些节点原本不属于原始叙事,但具有潜力成为有趣且引人入胜。创建最多涌现节点的玩家往往喜欢促进发现、探索和实验的游戏。
大模型日报(4月29日 学术篇)http://arxiv.org/abs/2404.17027v1
04
4

小语言模型需要强的验证者来自我纠正推理

自我纠正已成为提升大型语言模型(LLMs)推理性能的有前途的解决方案,其中LLMs使用自动生成的批评来指出错误并完善解决方案。本文探讨了较小规模(<= 13B)的语言模型(LMs)是否具有在推理任务上进行自我纠正的能力,并能从更强大的LLMs中获得最少的输入。我们提出了一个新颖的流水线,促使较小的LMs收集支持自我精炼能力训练的自我纠正数据。首先,我们利用正确的解决方案指导模型批评其不正确的回答。其次,经过筛选的生成的批评被用于通过解决方案精炼对自我纠正推理器进行监督微调。我们的实验结果显示,两个模型在跨数学和常识推理的五个数据集上的自我纠正能力得到了改善,当与强大的基于GPT-4的验证器配对时表现出明显的性能提升,尽管在确定何时纠正时使用薄弱的自我验证器时存在一些局限性。
大模型日报(4月29日 学术篇)http://arxiv.org/abs/2404.17140v1
05

大语言模型事件推理能力的综合评估

摘要:事件推理是许多应用程序的基本能力。它需要事件模式知识来进行全局推理,并且需要处理事件间关系和推理范式的多样性。LLM在各种关系和推理范式上如何完成事件推理尚不明确。为了缓解这种差异,我们综合评估了LLM的事件推理能力。我们引入了一个新的基准 EV2 用于评估事件推理。EV2包括两个级别的模式和实例评估,在关系和推理范式方面全面。我们在EV2上进行了广泛的实验。我们发现LLM能够完成事件推理,但性能仍然不尽人意。我们还注意到LLM中事件推理能力的不平衡。此外,LLM具有事件模式知识,但在如何利用知识方面与人类不一致。基于这些发现,我们提出了两种方法来指导LLM利用事件模式知识。这两种方法都取得了改进。
大模型日报(4月29日 学术篇)http://arxiv.org/abs/2404.17513v1
06

REBEL:通过回归相对奖励进行强化学习

摘要:尽管Proximal Policy Optimization(PPO)最初是为连续控制问题而开发的,但它已经涌现为各种强化学习(RL)应用的主力军,包括生成模型的微调。不幸的是,PPO需要多个启发式方法才能实现稳定的收敛(例如值网络、截断),并且因对这些组件的精确实现敏感而臭名昭著。为此,我们退一步思考,在生成模型时代,一个最简主义的RL算法会是什么样子。我们提出了REBEL,一种算法,通过在两种完成对话之间直接对政策参数化回归相对奖励,从而使政策优化问题变得干净,实现起来非常轻量级。在理论上,我们证明了像自然政策梯度这样的基本RL算法可以看作是REBEL的变体,这使我们能够在RL文献中具有收敛和样本复杂性方面的最强已知理论保证。REBEL还能够干净地纳入离线数据并处理我们在实践中经常看到的非传递偏好。在实证方面,我们发现REBEL为语言建模和图像生成提供了统一的方法,性能比PPO和DPO更强或类似,同时实现起来更简单且在计算上更易办到。
大模型日报(4月29日 学术篇)http://arxiv.org/abs/2404.16767v1
07

在线强化学习中重置的力量

摘要:模拟器是强化学习中普遍使用的工具,但大多数现有算法无法有效利用模拟器访问–特别是在高维领域中需要泛化函数逼近的情况下。我们通过在线强化学习探索了模拟器的潜力,其中代理允许在训练过程中重置到先前观察到的状态并按照它们的动态进行操作。我们利用局部模拟器访问解锁了先前无法实现的新统计保证:
  • 我们展示了具有低覆盖性的MDPs(Xie等人,2023年)– 这是一个一般的结构条件,包含块MDPs和低秩MDPs — 可以通过仅具有Q*-可实现性(最优状态价值函数的可实现性)以样本高效的方式学习;现有的在线强化学习算法需要更强的表示条件。
  • 因此,我们展示了臭名昭著的外部块MDP问题(Efroni等人,2022年)在局部模拟器访问下是可以解决的。
上述结果是通过一个计算效率低下的算法实现的。我们补充了一个计算效率更高的算法RVFS(递归值函数搜索),它在强化统计假设(称为推进覆盖性)下实现了可证明的样本复杂度保证。RVFS可被看作是一个有原则、可证明的对应于一个成功的经验范例的算法,该范例结合了递归搜索(如MCTS)和价值函数逼近。
大模型日报(4月29日 学术篇)http://arxiv.org/abs/2404.15417v2

HuggingFace&Github

01

MyShell——Open Voice

OpenVoice 是一种创新的语音克隆技术,它只需要很短的参考音频就能高度复制说话者的声音特征,包括语音风格、情感、口音等,并且可以零样本克隆到新的语言,同时具有出色的计算效率。相比之前的方法,OpenVoice在灵活控制语音风格和跨语言克隆方面取得了重大突破,为语音合成领域带来了新的可能性。
大模型日报(4月29日 学术篇)https://github.com/myshell-ai/OpenVoice
02

IDM—VTON

IDM-VTON 是一种创新的虚拟试衣模型,它通过融合服装图像的高低层语义特征以及提供详细的文本提示,生成比之前的方法更加自然和真实的虚拟试衣图像。此外,它还提出了一种基于用户输入的定制方法,进一步提高了生成图像的保真度和真实感,在保留服装细节方面也有出色的表现。

大模型日报(4月29日 学术篇)https://github.com/mishushakov/llm-scraper

大模型日报(4月29日 学术篇)

大模型日报16

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/15702.html

Like (0)
Previous 2024-04-29 12:16
Next 2024-04-30 14:49

相关推荐

  • 大模型日报(6月13日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-13
    121
  • 大模型日报(6月29~30日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-30
    239
  • 大模型日报(6月24日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-24
    190
  • AI学术 | IRIS.AI 一整月的文献数据提取工作,只需几分钟即可完成!

    Iris(鸢尾花)无疑是实战机器学习的第一课中的最最最著名的数据集,而这款工具也因此得名,一整月的数据提取工作只需几分钟即可完成,准确率高达 90%! 它实际上Iris.ai 适用…

    2023-07-11
    116
  • 开源分享 | Python可视化开源工具,一口气统统拿下!

    Python可视化开源工具,在这里一口气统统拿下~ 无论是做数据分析,软件系统还是为文章或报告提供有说服力的可视化图形,都是很棒的选择! PyViz是一站式可视化开源工具聚集地,可…

    2023-10-19
    162
  • 大模型日报(7月24日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-24
    259
  • 大模型日报(5月25~26日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-05-26
    163
  • 大模型日报(5月8日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-08
    156
  • 大模型日报(6月14日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-14
    136
  • 简谈ChatGPT伦理问题之一:偏见

    刚好最近在整理ChatGPT的一些伦理问题,打算梳理一下类似ChatGPT等AI工具或者AI平台的几大伦理问题,计划写一个系列的文章。 这里先从偏见(Bias)开始,文章不长,只是…

    2023-03-14
    113