大模型日报(5月10日 学术篇)

特别活动

大模型日报(5月10日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月10日 学术篇)

论文

01

OpenBA-V2: 通过快速多阶段修剪实现77.3%高压缩比

大语言模型(LLMs)由于其强大的能力在许多领域中发挥了重要作用。然而,它们庞大的参数数量导致了高部署要求和昂贵的推理成本,阻碍了实际应用。训练较小模型是解决这一问题的有效方法。因此,我们介绍了OpenBA-V2,这是一个从原始的15B OpenBA模型衍生而来的3.4B模型,采用多阶段压缩和持续预训练。OpenBA-V2利用更多数据、更灵活的训练目标以及层、神经和词汇修剪等技术,实现了77.3%的压缩率,并且性能损失很小。OpenBA-V2在与其他相似规模的开源模型的性能上表现出竞争力,在常识推理和命名实体识别等下游任务中取得了接近或与15B OpenBA模型相当的结果。OpenBA-V2证明了通过采用先进的训练目标和数据策略,可以将大语言模型压缩为较小模型,性能损失很小,从而有助于在资源有限的情况下部署LLMs。
大模型日报(5月10日 学术篇)http://arxiv.org/abs/2405.05957v1
02

OpenFactCheck: 一个用于LLM事实性评估的统一框架

随着大语言模型(LLMs)在各种真实应用中的增加使用,需要机制来验证它们输出的事实准确性。现有困难在于评估开放域中自由形式回答的真实性。此外,不同论文使用不同的评估标准和度量,使它们难以比较并阻碍未来进展。为了缓解这些问题,我们提出了OpenFactCheck,一个用于LLMs的统一事实性评估框架。OpenFactCheck包括三个模块:(i) CUSTCHECKER允许用户轻松定制自动事实检查器并验证文档和声明的事实正确性,(ii) LLMEVAL是一个统一的评估框架,公平地评估LLM的事实性能力,从各个角度进行评估,以及(iii)CHECKEREVAL是一个可扩展的解决方案,用于使用人工注释数据集评估自动事实检查器的可靠性验证结果。OpenFactCheck已公开发布在https://github.com/yuxiaw/OpenFactCheck。
大模型日报(5月10日 学术篇)http://arxiv.org/abs/2405.05583v1
03

寻找 SolidGoldMagikarp:在大语言模型中自动检测未训练的 token

摘要:语言模型中标记器创建和模型训练之间的脱节被认为允许某些输入(例如臭名昭著的SolidGoldMagikarp标记)引发不希望的行为。虽然这种在标记器词汇中存在却在训练中几乎或完全不存在的“故障标记”被观察到存在于各种不同模型中,但缺乏一致的识别方法。我们提出了一项涉及大型语言模型(LLM)标记器的全面分析,专门针对检测未训练和训练不足的标记这一问题。通过标记器分析、基于模型权重的指标和提示技术的结合,我们开发出有效的方法自动检测这些有问题的标记。我们的研究结果表明在各种模型中这类标记的普遍存在,并为改善语言模型的效率和安全性提供了见解。
大模型日报(5月10日 学术篇)http://arxiv.org/abs/2405.05417v1
04

教育性程序修复的基准测试

摘要:大型语言模型(LLM)的出现引发了巨大的兴趣,因为它们在教育任务中的潜在应用。编程教育领域最近利用LLM生成学习资源、改进错误消息并提供代码反馈。然而,领域内的一个限制因素是许多研究使用定制数据集和不同评估指标,使得结果之间的直接比较不可靠。因此,急需标准化和基准测试,以促进竞争方法的公平比较。LLM表现出巨大潜力的一个任务是程序修复,可用于为学生提供调试支持和下一步提示。我们提出了一个新颖的教育程序修复基准测试,整合了两个高质量的公开编程数据集,提出了一个新的评估指标rouge@k,评估了五个最近的模型以建立基准性能。
大模型日报(5月10日 学术篇)http://arxiv.org/abs/2405.05347v1
05

Vidur:一个用于评测LLM推断的大规模模拟框架

摘要:如今,优化大语言模型(LLMs)的部署是昂贵的,因为它需要通过实验运行应用负载来探索由系统旋钮(如并行化策略、批处理技术和调度策略)组成的大配置空间对LLM实现进行实验。为了解决这一挑战,我们提出了Vidur – 一个大规模、高保真度、易于扩展的LLM推理性能仿真框架。Vidur使用实验性分析和预测建模结合模拟LLM操作的性能,并通过估算延迟和吞吐量等多个感兴趣的指标评估不同工作负载的端到端推理性能。我们验证了Vidur在多个LLM上的保真度,并表明它在整个范围内估计推理延迟的误差小于9%。此外,我们提出了Vidur-Search,一个配置搜索工具,可帮助优化LLM的部署。Vidur-Search使用Vidur自动识别满足应用性能约束条件的最具成本效益的部署配置。例如,Vidur-Search可以在CPU机器上的一个小时内找到LLaMA2-70B的最佳部署配置,而基于部署的探索则需要42K GPU小时,成本约218K美元。Vidur的源代码可在https://github.com/microsoft/vidur上找到。
大模型日报(5月10日 学术篇)http://arxiv.org/abs/2405.05465v1
06

将扩散模型蒸馏为条件GAN

我们提出了一种方法,将复杂的多步扩散模型提炼成单步条件GAN学生模型,从而显著加速推理速度,同时保持图像质量。我们的方法将扩散提炼解释为一对一的图像到图像转换任务,使用扩散模型ODE轨迹的噪声到图像对。为了高效计算回归损失,我们提出了E-LatentLPIPS,这是一个在扩散模型潜空间直接操作的感知损失,利用增强集合。此外,我们调整扩散模型以构建一个多尺度鉴别器,带有文本对齐损失,从而构建有效的基于条件GAN的公式。E-LatentLPIPS的收敛比许多现有的提炼方法更高效,即使考虑到数据集构建成本。我们证明,我们的一步生成器在零样本COO基准测试中优于一流一步扩散提炼模型-DMD、SDXL-Turbo和SDXL-Lightning。
大模型日报(5月10日 学术篇)http://arxiv.org/abs/2405.05967v1
07

在模拟环境中评估真实世界机器人操作政策

摘要:机器人领域在通用机器人操作策略方面取得了重要进展。然而,对这些策略进行真实世界的评估不可扩展,并面临再现性挑战,随着策略扩展能执行的任务范围扩大,这些挑战可能会加剧。我们确定真实与模拟环境之间的控制和视觉差距是可靠模拟评估的关键挑战,并提出了一些方法来减轻这些差距,而无需制作真实环境的完整数字孪生体。然后,我们采用这些方法创建了SIMPLER,一个用于在常见真实机器人设置上评估操作策略的模拟环境集合。通过模拟和真实环境中的操作策略相配对的评估,我们展示了SIMPLER环境中策略性能与真实世界中的强相关性。此外,我们发现SIMPLER评估准确反映了真实世界的策略行为模式,如对各种分布转变的敏感性。我们开源所有SIMPLER环境,以及我们用于创建新环境的工作流程,以促进对通用操控策略和模拟评估框架的研究。
大模型日报(5月10日 学术篇)http://arxiv.org/abs/2405.05941v1
HuggingFace&Github

01

Awesome LLM EvalAwesome LLM Eval

Awesome-LLM-Eval 是一个由工具、基准/数据、演示、排行榜和大模型等组成的精选列表,主要面向大型语言模型评测(例如ChatGPT、LLaMA、GLM、Baichuan等)。
大模型日报(5月10日 学术篇)https://github.com/onejune2018/Awesome-LLM-Eval/
02

Llama3-TenyxChat-70B

tenyx/Llama3-TenyxChat-70B 是一款经过 Tenyx Research 团队专有微调的 70B 参数聊天型语言模型,基于开源的 Llama 3 模型开发而成,在多轮对话场景下表现出色,在标准基准测试中也取得了领先的成绩,是一个值得关注和使用的高性能聊天助手模型。
大模型日报(5月10日 学术篇)https://huggingface.co/tenyx/Llama3-TenyxChat-70B
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15510.html

Like (0)
Previous 2024-05-10 10:35
Next 2024-05-11 23:28

相关推荐

  • 大模型日报(8月13日 学术篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-13
    243
  • 文献综述也可以自动化!(地铁上,顺便分享)

    你是否也为整理大量文献而烦恼,这几个开源工具或许会成为你的得力助手。 1. Liststudy https://github.com/NLeSC/litstudy Using th…

    2023-02-08
    210
  • 大模型日报(4月16日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 Megalodon:具有无限上下文长度的高效…

    2024-04-16
    191
  • 大模型日报(7月13~14日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-14
    255
  • 几个有趣的机器学习和深度学习可视化Web工具

    主要用途,理解数学公式的同时,通过这几类可视化工具,可以加深对机器学习、深度学习、概率分布知识的理解和应用。 📌Four interactive tools to learn ma…

    2022-11-13
    169
  • 大模型日报(9月26日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-26
    212
  • 大模型日报(7月29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-29
    233
  • 大模型日报(9月11日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-11
    347
  • 大模型日报(7月19日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-19
    195
  • 大模型日报(5月25~26日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-05-26
    163