大模型日报(4月9日 学术篇)

欢迎观看大模型日报

大模型日报(4月9日 学术篇)

论文

01

密集训练,稀疏推断:重新思考混合专家语言模型的训练

混合专家语言模型(MoE)可以在不牺牲性能的情况下,与密集模型相比,将计算成本降低2-4倍,使其在计算受限的场景中更加高效。然而,MoE模型通常需要2-4倍的参数才能实现与密集模型相当的性能,这会导致更大的GPU内存需求,使得MoE模型在像自回归生成这样的I/O受限场景中效率较低。在本研究中,我们提出了一种混合密集训练和稀疏推断框架用于MoE模型(DS-MoE),通过在训练期间在所有专家之间使用密集计算,然后在推理期间使用稀疏计算,实现了强大的计算和参数效率。我们的实验表明,我们的DS-MoE模型比标准稀疏MoE更具参数效率,在总参数大小和性能方面与密集模型不相上下,同时计算成本更低(激活模型参数的30-40%)。使用vLLM进行的性能测试显示,我们的DS-MoE-6B模型比类似的密集模型(如Mistral-7B)运行速度快高达1.86倍,比类似的MoE(如DeepSeekMoE-16B和Qwen1.5-MoE-A2.7B)快1.50-1.71倍。
大模型日报(4月9日 学术篇)http://arxiv.org/abs/2404.05567v1
02

语言模型的物理学:第3.3部分,知识容量缩放定律

规模定律描述了语言模型的大小与其能力之间的关系。与以前评估模型能力的研究不同,我们通过估计模型存储的知识位数来评估模型的能力。我们关注作为元组表示的事实知识,例如从维基百科页面中提取的(美国,首都,华盛顿特区)。通过多个受控数据集,我们确认语言模型可以且只能每个参数存储2位知识,即使量化为int8,并且这样的知识可以灵活地用于下游应用。因此,根据我们的估计,7B模型可以存储14B位知识,超过英文维基百科和教科书的总和。
更广泛地说,我们提出12项结果,说明训练持续时间、模型架构、量化、MoE等稀疏约束和数据信噪比如何影响模型的知识存储能力。值得注意的见解包括:
  • 具有旋转嵌入的GPT-2架构,在知识存储方面与LLaMA/Mistral架构相匹敌甚至超越,特别是在较短的训练持续时间内。这是因为LLaMA/Mistral使用了不太稳定且难以训练的GatedMLP。
  • 在训练数据前添加域名(例如,wikipedia.org)显著增加了模型的知识容量。语言模型可以自主识别和优先考虑知识丰富的域,优化其存储能力。
大模型日报(4月9日 学术篇)http://arxiv.org/abs/2404.05405v1
03

MIMIR:领域专家个性化智能体调优的简化平台

最近,大型语言模型(LLMs)已经发展成具有规划、工具使用和跨多种任务执行能力的互动智能体。然而,没有特定智能体调整,像LLaMA这样的开源模型目前难以匹敌GPT-4的效率,尤其是缺乏用于微调的智能体调整数据集时。为此,我们推出了Mimir:一个简化的平台,提供可定制的管道,使用户能够大规模利用私有知识和公开、合法的数据集进行个性化智能体调整。此外,Mimir支持从相同输入生成通用的指令调整数据集。这种双重功能确保通过该平台开发的语言智能体既具有特定智能体能力,又具有一般能力。Mimir将这些功能集成到一个连贯的端到端平台中,从上传个性化文件到一键智能体微调都得以便捷进行。
大模型日报(4月9日 学术篇)http://arxiv.org/abs/2404.04285v1
04
4

使用合成数据进行训练有多糟糕?语言模型崩溃的统计分析

《模型崩溃现象》,由Shumailov等人在2023年引入,指的是当新模型基于先前训练模型生成的合成数据进行训练时性能下降的现象。这种递归训练循环使得原始分布的尾部消失,导致未来生成的模型忘记了最初的(真实)分布。为了深入理解语言模型中的模型崩溃现象,本文考虑了一个统计模型,允许我们描述不同递归训练情景的影响。具体而言,我们证明了仅在合成数据上训练时无法避免模型崩溃。然而,当混合使用真实和合成数据时,我们提供了一个估计,即在模型崩溃最终可以避免的情况下,合成数据的最大数量。我们的理论结论得到了经验验证的进一步支持。
大模型日报(4月9日 学术篇)http://arxiv.org/abs/2404.05090v1
05

探索与理解DPO限制的理论视角

直接偏好优化(DPO)从成对偏好数据中直接导出奖励信号,已证实在将大型语言模型(LLM)与人类偏好对齐方面的有效性。尽管DPO在各种任务中被广泛使用,但它却因对SFT效果的敏感性和对向人类优选回复学习能力的阻碍而受到批评,从而导致性能不佳。为了克服这些限制,对DPO的理论理解至关重要但仍然缺乏。为此,我们采取了一步措施来从理论上分析和理解DPO的限制。具体而言,我们提供了一个使用场论来分析DPO优化过程的分析框架。通过分析DPO损失函数的梯度向量场,我们发现DPO损失函数在减少生成人类不偏好数据的概率速度方面比增加生成优选数据的概率更快。这为理解相关研究实验中发现的DPO限制提供了理论洞见,从而为其改进奠定了基础。
大模型日报(4月9日 学术篇)http://arxiv.org/abs/2404.04626v1
06

SqueezeAttention: 通过分层最优预算在LLM推理中管理KV缓存的二维方式

摘要: 优化大语言模型(LLM)的键值(KV)缓存被认为是节省推理成本的关键。现有的大多数KV缓存压缩算法试图通过利用标记的不同重要性来减少标记序列的稀疏性。在这项工作中,我们发现通过识别注意力层的重要性,我们可以从两个维度共同优化KV缓存。基于我们对推理中逐层重要性的观察,我们提出了SqueezeAttention,精确优化KV缓存预算在各层之间的分配,并结合三种代表性的标记稀疏化算法,压缩每个层的KV缓存。通过从序列和层的维度优化KV缓存,SqueezeAttention在广泛的LLMs和基准测试中实现了大约30%到70%的内存减少以及高达2.2倍的吞吐量改善。代码可在https://github.com/hetailang/SqueezeAttention找到。
大模型日报(4月9日 学术篇)http://arxiv.org/abs/2404.04793v1
07

一个大规模的μ-转移的探索

大型神经网络模型已成为自然语言处理和计算机视觉的主要支柱,然而它们的初始化和学习速率在很大程度上是凭经验确定的,可能会因论文和模型大小的不同而有所变化。μ参数化(μP)提供了对这些挑战的潜在解决方案,为模型初始化和学习速率提供了缩放规则,并据称在各种情况下实现了从小到大模型的零-shot超参数转移。尽管显而易见的前景,但μP缩放规则尚未被广泛采用,可能是因为实现复杂性较高、变化较多或理论背景复杂。这项工作通过经验研究了μP,重点关注普遍存在的Transformer架构,并旨在回答一个简单问题:μ-转移在实践中是否提供了最佳学习速率?从具有2M到10B参数的模型中,我们展示了μ-转移对大多数重要情况的有效性,但也发现了一些令人惊讶的情况,可能并不适用。
大模型日报(4月9日 学术篇)http://arxiv.org/abs/2404.05728v1
08

nanoLM: 通过准确损失预测跨尺度预训练LM的可负担性基准

随着语言模型的扩展,验证研究想法变得越来越昂贵,因为针对小模型的结论不能轻易转移到大模型上。一种可能的解决方案是建立一个通用系统,能准确预测大模型的某些指标,而无需对其进行训练。本文提出了一种名为μScaling的方法,通过我们的观察,最大更新参数化(μP)实现了对超参数空间中常见损失盆地附近的缩放规律的准确拟合。通过μScaling,不同模型设计可以在大规模上进行比较,只需训练它们较小的对应物。我们引入了nanoLM:一个经济实惠的LLM预训练基准,促进了这种新的研究范式。通过大约14%的一次性预训练成本,我们可以准确预测高达52B的模型损失。我们希望通过nanoLM使有限资源的研究人员能够对大型模型做出有意义的结论。我们还希望我们的基准能够成为学术界和工业界之间的桥梁。μScaling的代码可在https://github.com/cofe-ai/Mu-scaling找到。nanoLLM的代码稍后会提供
大模型日报(4月9日 学术篇)http://arxiv.org/abs/2304.06875v4
09

Diffusion-RWKV:为扩散模型扩展RWKV类架构

摘要:Transformer在计算机视觉和自然语言处理领域引发了进展。然而,对于长篇任务(如高分辨率图像生成),巨大的计算复杂性限制了它们的应用。本文介绍了一系列源自用于NLP的RWKV模型的架构,对Diffusion-RWKV进行了必要的修改,以适用于应用于图像生成任务的扩散模型。与Transformer的扩散类似,我们的模型设计为在序列中高效处理块状输入,并能有效扩展,适应大规模参数和广泛数据集。其独特优势表现在减少了空间聚合复杂性,使其在处理高分辨率图像时异常擅长,从而消除了窗口化或组缓存操作的必要性。对有条件和无条件图像生成任务的实验结果表明,Diffison-RWKV在FID和IS指标上表现与现有的CNN或Transformer基础的扩散模型相媲美甚至超越,同时显著减少了总的计算FLOP使用。
大模型日报(4月9日 学术篇)http://arxiv.org/abs/2404.04478v1

HuggingFace&Github

01

FreeAskInternet

FreeAskInternet 是一个完全免费、私有且在本地运行的搜索聚合器和答案生成器LLM,无需 GPU。用户可以提出一个问题,系统会进行多引擎搜索,并将搜索结果组合到 ChatGPT3.5 中LLM,并根据搜索结果生成答案。
https://github.com/nashsu/FreeAskInternet
02

BIG-AGI

Big-AGI 是一款面向需要功能、形式、简单性和速度的专业人士的 AI 套件。由 12 家供应商和开源服务器的最新型号提供支持, Big-AGI 提供一流的聊天、通话,包括 AI 角色、可视化、编码、绘图、并排聊天等。
大模型日报(4月9日 学术篇)https://github.com/enricoros/big-AGI
03

Cerule-v0.1

Cerule 是一个小巧而强大的视觉流水模型,基于新发布的 Google 的 Gemma-2b 和 Google 的 SigLIP。小参数但性能强大,可识别图像给出文本回复
https://huggingface.co/Tensoic/Cerule-v0.1

大模型日报(4月9日 学术篇)

大模型日报16

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/16295.html

Like (0)
Previous 2024-04-09 18:09
Next 2024-04-10 11:51

相关推荐

  • AI 学术| SciSpace 提供最简单的方法查找、理解和学习论文,用完定让你爱不释手!

    有没有一种最简单方法来查找、理解和学习任何研究论文? 有没有一种对于咱们阅读的每一篇论文,都能够轻松地从AI那里获得简单的解释和答案,并发现一个由相互关联的相关论文组成的网络? 来…

    2023-07-14
    232
  • 大模型日报(4月18日 学术篇)

    欢迎观看大模型日报,进入大模型日报群和空间站(活动录屏复盘聚集地)请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 学习 01 DSPy 入门: 再见提示…

    2024-04-18
    105
  • 大模型日报(5月16日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-16
    139
  • 大模型日报(7月30日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-30
    198
  • 大模型日报(5月29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-29
    214
  • 大模型日报(7月10日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-10
    246
  • ChatGPT4+的冰与火之歌,抑制还是发展?

    一边是千人上书要求抑制AI,一边是奋力应对寻求平衡! 老规矩,周末务点虚,看看趋势,聊聊口水~ 接上一篇文章:近千名科技大佬联名抵制AI ChatGPT4+的研发 更有甚者,要求直…

    2023-04-01
    168
  • AI学术 | 写Research Proposal, Claude和ChatGPT哪家强?

    Claude和ChatGPT这两个AI工具,在学术领域的工作当中到底哪家强呢? 这不是一个容易回答的问题,需要对学术领域的具体问题,进行全面的考察,我们不妨一步步来~ 下面我们来简…

    2023-10-17
    161
  • 大模型日报(5月30日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-30
    143
  • VS Code + ChatGPT 科研代码神器,五步信手拈来!

    先看看ChatGPT是怎么评价自己和VS Code结合的: VS Code 和 ChatGPT 的结合可以为开发人员和研究人员提供一个强大的工具,以快速生成和测试自然语言文本。VS…

    2023-03-07
    128