大模型日报(7月10日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(7月10日 学术篇)

论文

01

数据,到处都是数据:预训练数据集构建指南

近期语言模型的令人印象深刻的能力主要归功于庞大的训练数据集。然而,模型开发者未披露构建方法,导致对有效训练集开发缺乏开放信息。为解决此问题,我们首次进行了系统研究,涵盖整个训练集构建流程。我们对现有的训练集开发技术进行消融实验,确定哪些方法对下游评估的模型准确性产生最大增益。然后,我们对最广泛使用的数据来源——网络爬虫快照进行了分类,包括毒性属性、质量、语言类型和领域。最后,我们展示了如何利用这些属性信息进一步完善和提升训练集的质量。这些发现提供了从业者可以使用的一系列可操作步骤,用于开发高质量的训练集。
大模型日报(7月10日 学术篇)http://arxiv.org/abs/2407.06380v1
02

熵定律:数据压缩和LLM性能背后的故事

数据是大语言模型(LLMs)的基石,但并非所有数据都适用于模型学习。精心选择的数据可以更好地唤起LLMs的能力,而计算开销则少得多。大多数方法集中于评估数据选择中单个样本的质量,而忽略了样本之间的组合效果。即使每个样本的质量都很好,它们的组合可能由于固有的同质性或矛盾而无法最优地教导LLMs。本文旨在揭示LLM性能与数据选择之间的潜在关系。受LLMs信息压缩特性的启发,我们揭示了一种将LLM性能与数据压缩比和第一轮训练损失联系起来的“熵定律”,这两个指标分别反映了数据集中信息冗余和内在知识的掌握程度。通过理论推导和实证评估,我们发现模型性能与训练数据的压缩比呈负相关,通常会产生更低的训练损失。基于熵定律的发现,我们提出了一种非常高效且通用的数据选择方法,命名为ZIP,旨在优先考虑呈现低压缩比的数据子集。通过以贪婪方式选择多样化数据的多阶段算法,我们可以获得具有令人满意多样性的良好数据子集。进行了广泛实验验证熵定律和ZIP在不同LLM主干和对齐阶段的优越性。我们还提出了熵定律的一个有趣应用,可在模型训练初期检测潜在性能风险。
大模型日报(7月10日 学术篇)http://arxiv.org/abs/2407.06645v1
03

B’MOJO:混合状态空间模型具有 eidetic 和 fading 记忆

我们描述了一系列支持转导推理的架构,允许内存增长到有限但先验未知的界限,同时有效利用有限资源进行推理。当前的架构使用这些资源来在有限跨度内(在Transformer中称为“上下文”)或在无限跨度内逐渐消失(在State Space Models或SSMs中)表示数据。最近的混合架构已经结合了eidetic和fading memory,但存在限制,不允许设计者或学习过程无缝调节两者,也不能扩展eidetic memory跨度。我们利用随机实现理论的思想开发了一类模型,称为B’MOJO,可以在一个基本的可组合模块内无缝组合eidetic和fading memory。整体架构可以用来实现可以访问短期eidetic memory“上下文中”的模型,永久结构性memory“权重中”的模型,逐渐消失的memory“状态中”的模型,以及长期eidetic memory“存储中”的模型,通过本地化地从异步更新的内存中检索。我们展示了Transformers,现有SSMs(如Mamba)和混合架构(如Jamba)都是B’MOJO的特例,并描述了一种基本的开源实现,在硬件中可以高效堆叠和扩展。我们在转导推理任务上测试了B’MOJO,例如联想召回,在此任务中它优于现有的SSMs和混合模型;作为基准,我们测试了普通语言建模,在此任务中,B’MOJO在参数相似的Transformer和SSMs上达到了相当的困惑度,而且训练速度提高了最多10%。最后,我们展示了B’MOJO调控eidetic和fading memory的能力在更长序列上的推理效果更好,测试的最长序列长度为32K token,是训练时最长序列长度的四倍。
大模型日报(7月10日 学术篇)http://arxiv.org/abs/2407.06324v1
04

上下文学习中的模式匹配的关键机制:Induction Heads

大语言模型(LLMs)通过上下文学习展示了学习和执行复杂任务的显著能力。但是,对其内部机制的全面理解仍然缺乏。本文探讨了感应头在少样本上下文学习设置中的作用。我们在抽象模式识别和NLP任务上分析了两种最先进的模型,Llama-3-8B和InternLM2-20B。结果显示,即使对感应头进行最小程度的消融,也会导致抽象模式识别任务的ICL性能下降高达~32%,接近随机水平。对于NLP任务,这种消融显着减少了模型从例子中受益的能力,使少样本下的ICL性能接近于零样本提示。我们进一步使用注意力击败来禁用特定的感应模式,并提供了对感应机制在ICL中发挥作用的细致证据。
大模型日报(7月10日 学术篇)http://arxiv.org/abs/2407.07011v1
HuggingFace&Github

01

aints-Undo

PaintsUndo 是一个提供人类绘画行为基础模型的项目,包含单帧模型和多帧模型两种,可以结合使用生成模拟人类绘画过程的视频。单帧模型输入图像和操作步骤,输出模拟”撤销”操作的中间状态图像;多帧模型输入两张图像,输出 16 个中间帧以生成更连贯的视频。这两个模型都基于 Stable Diffusion 和 VideoCrafter 进行了大量修改和训练。

大模型日报(7月10日 学术篇)https://github.com/lllyasviel/Paints-UNDO

02

KVQuant

KVQuant 是一种用于高效 KV 缓存量化的方法,希望解决长上下文长度推理时的内存瓶颈问题。它通过考虑不同 LLM 中缓存 KV 值的一些一致模式,并开发了利用这些模式的方法,实现了低精度 KV 缓存量化的高精度。这些方法包括:针对键的每通道、预 RoPE 量化、非均匀量化(NUQ)以及稠密和稀疏量化。使用 KVQuant,可以在单个 A100-80GB GPU 上高效地推理 LLaMA-7B 模型,甚至可以在 8 GPU 系统上推理 10M 上下文长度的 LLaMA-7B 模型。
大模型日报(7月10日 学术篇)https://github.com/SqueezeAILab/KVQuant
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/07/14198.html

Like (0)
Previous 2024-07-10 16:04
Next 2024-07-11 14:22

相关推荐

  • 大模型日报(4月18日 学术篇)

    欢迎观看大模型日报,进入大模型日报群和空间站(活动录屏复盘聚集地)请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 学习 01 DSPy 入门: 再见提示…

    2024-04-18
    121
  • 大模型日报(7月18日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-18
    197
  • 500+AI工具大荟萃,一站式人工智能工具聚集地!

    大厂AI大模型频繁更替,小团队AI应用更是层出不穷! 你还再烦恼找不到合适的AI工具?不妨在这里逛一逛,这里分门别类聚集了500多款AI工具,几乎应有尽有! 这是昨天一位素未谋面的…

    2023-06-15
    146
  • 与ChatGPT双向沟通,三步获得文献Idea!

    该文章分为两部分, 前一部分(1~4)为近期背景,即关于ChatGPT在研究和教育方面的事件; 后一部分(5)为ChatGPT在文献阅读的案例分享。 1. 近期背景: 1. 1如下…

    2023-03-10
    186
  • 大模型日报(6月24日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-24
    215
  • 大模型日报(5月20日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-20
    225
  • 大模型日报(4月30日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-04-30
    133
  • 大模型日报(4月7日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 AutoWebGLM:基于大型语言模型的We…

    2024-04-07
    104
  • 大模型日报(6月5日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-06-05
    163
  • 一眼看透机器学习中的欠拟合(Underfitting)和过拟合(Overfitting)

    第一篇文章没有漂亮的开场白,想到哪就写哪,只因发现一个特别有趣的东西而已。 众所周知,无论是学术界还是产业界,人工智能乃当下大热,而机器学习作为其中的重要分支,亦是热中之热,重中之…

    2022-07-12
    218