大模型日报(8月21日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(8月21日 学术篇)

论文

01

To Code, or Not To Code?探讨预训练中代码的影响

摘要:在大语言模型的预训练中,即使是针对非代码设计的模型,将代码包含在数据混合中已经成为一种常见做法。虽然从业者之间普遍认为代码数据在一般LLM性能中起着至关重要的作用,但只有有限的研究分析了代码对非代码任务的确切影响。在本研究中,我们系统地调查了代码数据对一般性能的影响。我们提出了一个问题:“代码数据在预训练中对超出代码生成之外的大量下游任务的影响是什么”。我们进行了广泛的消融实验,并在广泛的自然语言推理任务,世界知识任务,代码基准测试以及LLM作为评委的比赛中进行评估,模型参数范围从4.7亿到28亿个之间。在各种设置中,我们发现代码是泛化的关键基础,远远超出了编码任务,并且提高代码质量对所有任务都有很大影响。尤其是,与仅文本预训练相比,添加代码可使自然语言推理提高最高达8.2%,世界知识提高4.2%,生成式比赛胜率提高6.6%,代码性能提升12倍。我们的研究表明,投资代码质量并在预训练过程中保留代码具有积极影响。
大模型日报(8月21日 学术篇)
大模型日报(8月21日 学术篇)http://arxiv.org/abs/2408.10914v1
02

Scaling Law with Learning Rate Annealing

我们发现神经语言模型的交叉熵损失曲线实际上遵循着学习率(LR)随训练步骤($$$$)调整的缩放定律:$$L(s) = L_0 + Acdot S_1^{-alpha} – Ccdot S_2$$ 其中$S_1$是前向区域,$S_2$是学习率调整区域。这个公式考虑了两个因素:(1) 前向缩放定义为典型的缩放定律,以及(2) 学习率调整带来的额外损失降低。因此,这个公式可以描述每一步的完整损失曲线,而不是训练结束时的单个损失点。应用LR退火的缩放定律并拟合一个或两个训练曲线,我们可以准确预测任何给定步骤和任何学习率调度器(LRS)下语言模型训练的损失。此外,这个方程准确描述了训练过程中的动态,并为先前研究的许多实验发现提供了理论验证和解释,特别是那些关注LR调度和LR退火的研究。由此产生的见解也为研究人员提前选择关键的LRS提供了指导,通过使用我们的方程进行预测。最重要的是,由于完整训练曲线中的所有点都遵循该方程,我们可以在任何给定步骤和任何学习率调度器下实现准确的损失预测,而只需花费chinshilla缩放定律拟合语言建模损失所需计算成本的不到1%。这种方法极大地推动了在开发大型语言模型中的缩放定律拟合和预测的民主化。
大模型日报(8月21日 学术篇)
大模型日报(8月21日 学术篇)http://arxiv.org/abs/2408.11029v1
03

SysBench:大语言模型能够跟随系统消息吗?

大型语言模型(LLMs)已经成为各种应用的重要工具,定制这些模型以适应特定场景变得日益关键。系统消息是LLMs的基本组成部分,由精心设计的指令组成,指导模型的行为以达到预期目标。尽管人们认识到系统消息对优化基于AI的解决方案的潜力,但目前缺乏一个全面的基准来评估不同LLMs如何遵循这些系统消息。为了填补这一空白,我们引入了SysBench,一个基准测试,以三个具有挑战性的方面评估系统消息遵循能力:约束复杂性、指令不一致和多轮稳定性。为了实现有效评估,SysBench构建了基于真实场景中系统消息六种常见类型约束的多轮用户对话,包括各种交互关系。我们的数据集包含来自各个领域的500条系统消息,每个消息配对5轮用户对话,经过手工制定和检查以确保质量。SysBench在各种LLMs上进行广泛评估,衡量它们根据系统消息中给定的指定约束所能遵循的能力。结果突出了现有模型的优势和劣势,提供了未来研究的关键见解和方向。开源库SysBench可在https://github.com/PKU-Baichuan-MLSystemLab/SysBench上获取。
大模型日报(8月21日 学术篇)
大模型日报(8月21日 学术篇)http://arxiv.org/abs/2408.10943v1
04

HMoE:用于语言建模的异质专家混合

摘要:混合专家模型 (MoE) 通过选择性地激活模型参数子集,提供了显著的性能和计算效率。传统上,MoE模型使用同质的专家,每个专家具有相同的能力。然而,输入数据的复杂性变化需要具有不同能力的专家,而同质的MoE阻碍了有效的专家专业化和高效的参数利用。在本研究中,我们提出了一种新颖的异构专家混合模型 (HMoE),其中专家在大小上有所不同,因此具有不同的能力。这种异质性允许更专业化的专家更有效地处理不同的token复杂性。为了解决专家激活不平衡问题,我们提出了一种新颖的训练目标,鼓励更频繁地激活较小的专家,增强计算效率和参数利用。大量实验证明,HMoE在更少激活参数的情况下实现了更低的损失,并在各种预训练评估基准上优于传统的同质MoE模型。代码将在接受后发布。
大模型日报(8月21日 学术篇)
大模型日报(8月21日 学术篇)http://arxiv.org/abs/2408.10681v1
05

从非结构化文本中的价值对齐

摘要:在人工智能和自然语言处理领域,将大型语言模型(LLMs)与价值观对齐成为一个重要的研究领域。目前,这一对齐过程依赖于高质量的监督和偏好数据,而筹集和标注这些数据可能既耗时又昂贵。本文提出了一种系统的端到端方法,将LLMs与非结构化文本数据中体现的隐性和显性价值观对齐。我们的方法利用可伸缩的合成数据生成技术,有效地将模型与非结构化数据中的价值观对齐。通过两个不同的用例,我们展示了我们的方法在Mistral-7B-Instruct模型上的效率。我们的方法可靠地将LLMs与文档中嵌入的价值观对齐,并显示出比其他方法更好的性能,通过自动指标和胜率来量化。
大模型日报(8月21日 学术篇)
大模型日报(8月21日 学术篇)http://arxiv.org/abs/2408.10392v1
06

CodeJudge-Eval:大语言模型能成为代码理解的良好评判者吗?

最近大语言模型(LLMs)的进展展示了令人印象深刻的代码生成能力,主要通过语言到代码的基准测试进行评估。然而,这些基准测试可能并不能完全捕捉模型对代码的理解能力。我们引入了一个新颖的基准测试CodeJudge-Eval(CJ-Eval),旨在从代码判断的角度而非代码生成的角度评估LLMs的代码理解能力。CJ-Eval挑战模型确定提供的代码解决方案的正确性,涵盖各种错误类型和编译问题。通过利用多样化的问题和精细化的判断系统,CJ-Eval解决了传统基准测试的局限,包括潜在的解决方案记忆问题。在CJ-Eval上对12个知名LLMs的评估显示,即使是最先进的模型也面临困难,突显了该基准测试深入探究模型代码理解能力的能力。我们的基准测试将在url{https://github.com/CodeLLM-Research/CodeJudge-Eval}上提供。
大模型日报(8月21日 学术篇)http://arxiv.org/abs/2408.10718v1
07

Transfusion:用一个多模型模型预测下一个 token 并传播图像

我们介绍了Transfusion,这是一个用于训练多模态模型的方法,可以处理离散和连续数据。Transfusion将语言建模损失函数(下一个token的预测)与扩散结合起来,用于训练混合模态序列上的单个Transformer。我们从零开始在混合文本和图像数据上预训练了多个Transfusion模型,达到了7B参数,建立了与各种单模和交叉模态基准的比例律。我们的实验表明,Transfusion比量化图像并在离散图像token上训练语言模型要好得多。通过引入模态特定的编码和解码层,我们可以进一步提高Transfusion模型的性能,甚至将每个图像压缩到仅16个补丁。我们进一步证明,将我们的Transfusion方法扩展到7B参数和2T多模态token会产生一个能够生成图像和文本的模型,与类似规模的扩散模型和语言模型相媲美,获得了两个世界的好处。
大模型日报(8月21日 学术篇)
大模型日报(8月21日 学术篇)http://arxiv.org/abs/2408.11039v1
HuggingFace&Github

01

Lerobot

LeRobot 是一个希望提供用于真实世界机器人的模型、数据集和工具的 PyTorch 项目。它的目标是降低机器人领域的准入门槛,让每个人都可以贡献和从共享数据集和预训练模型中获益。
大模型日报(8月21日 学术篇)https://github.com/huggingface/lerobot
02

Qwen2-Math-Demo

通义天问放出 Demo,支持通过文本输入数学问题进行解答,如果公式等文本输入困难,可以通过图像或截图输入。
大模型日报(8月21日 学术篇)https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/08/13472.html

Like (0)
Previous 2024-08-20 22:03
Next 2024-08-21 22:13

相关推荐

  • 大模型日报(5月6-7日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-07
    179
  • #文献阅读# 物联网行业应用文献综述 (Internet of Things in Industries: A Survey)

    前两天收到导师推荐的一篇相关主题的Survey文章,建议我精读并拆解一下文章的结构和逻辑,以便我后续的文章写作,于是我开始这篇文章的阅读与拆解之旅。 Xu, L. D., et a…

    2022-07-25
    135
  • 大模型日报(6月19日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-19
    126
  • 大模型日报(4月8日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 中文迷你 LLM:预训练一个以中文为中心的大…

    2024-04-08
    119
  • 大模型日报(4月24日 学术篇)

    欢迎观看大模型日报,进入大模型日报群和空间站(活动录屏复盘聚集地)请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 多头专家混合模型 稀疏专家…

    2024-04-24
    131
  • AI大热之下,AI先驱Hinton为何主动放弃?

    “人工智能教父”Geoffrey Hinton 离开谷歌并警告前方有危险~ 半个世纪以来,Geoffrey Hinton 培育了 ChatGPT 等聊天机器人的核心技术。 然而,现…

    2023-05-03
    97
  • TextGenerator写文献综述比ChatGPT靠谱?亲试结果…

    接前几篇关于写使用AI工具写Literature Review的文章: #ChatGPT一小时完成文献综述(Systematic Literature Review)! ChatG…

    2023-04-09
    156
  • 大模型日报(4月12日 学术篇)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 RecurrentGemma:超…

    2024-04-12
    118
  • ChatGPT不懂你的Prompts?来试下FusionAI!

    你有没有遇到过输入各种指令,英语的也好,中文的也好,无论你怎么修改这蹩脚的英文单词,亦或者是修辞自己的母语,总之,ChatGPT就是没有读懂你?或者说,它给出的答案,你总是觉得不够…

    2023-04-05
    174
  • 大模型日报(4月13~14日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 学习 01 AI 集群基础设施 InfiniBand 详…

    2024-04-14
    143