大模型日报(5月29日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月29日 学术篇)

论文

01

Yuan 2.0-M32:带有注意路由器的专家混合

摘要:Yuan 2.0-M32采用与Yuan-2.0 2B相似的基础架构,使用32个专家的混合专家架构,其中有2个专家是活跃的。提出并采用了新的路由器网络Attention Router,用于更有效地选择专家,相比传统路由器网络的模型提高了3.8%的准确率。Yuan 2.0-M32是从零开始训练的,使用了2000B个token,训练计算消耗仅为同等参数规模下稠密模型的9.25%。Yuan 2.0-M32展示了在编码、数学和各种领域的竞争能力,仅有3.7B活跃参数中的40B总参数,并且每个token的前向计算为7.4 GFlops,分别只有Llama3-70B的1/19。Yuan 2.0-M32在MATH和ARC-Challenge基准测试中超过了Llama3-70B,准确率分别为55.89和95.8。Yuan 2.0-M32的模型和源代码在Github上发布。
大模型日报(5月29日 学术篇)http://arxiv.org/abs/2405.17976v1
02

数据集增长

深度学习受益于不断增长的可用数据。与此同时,有效地处理不断增长的数据规模已经成为一个挑战。公开可获取的数据来自不同来源,质量各异,在当今数据规模下,进行手动去噪和去冗余是不切实际的。已有的清洗/选择数据的技术主要针对离线设置,针对其中一种清洁度和冗余问题。但实际情况下,数据以指数速度增长,两个问题都存在。为了解决这一挑战,我们提出了InfoGrowth,一种用于数据清洗和选择的高效在线算法,从而产生一个与清洁度和多样性意识保持同步的不断增长的数据集。InfoGrowth可以提高单模态和多模态任务的数据质量/效率,具有高效且可伸缩的设计。其框架使其在真实世界数据引擎中实用。
大模型日报(5月29日 学术篇)http://arxiv.org/abs/2405.18347v1
03

语言崩溃:(大型) 语言模型中的神经崩溃

神经崩溃(NC)是在分类任务中观察到的现象,其中顶层表示塌缩为其类别均值,这些均值变得等模、等角且与分类器对齐。这些行为与泛化和鲁棒性相关,并在特定条件下表现出来:模型被训练朝着零损失,带有干净标签的均衡类别,这些类别不超出模型的隐藏维度。最近的研究在这些条件中一个或多个不存在时探索了NC,以扩展和利用理想几何的相关好处。语言建模是一个有趣的领域,因为通过标记预测训练构成了一个分类任务,其中没有这些条件存在:词汇不平衡且超出嵌入维度;不同标记可能对应相似的上下文嵌入;特别是大型语言模型(LLMs)通常只训练几个纪元。本文在因果语言模型(CLMs)的架构和训练规模上实证调查了缩放对它们向NC进展的影响。我们发现,随着缩放而发展的NC特性与泛化有关。此外,有证据表明在独立于规模的情况下,NC与泛化之间存在某种关系。因此,我们的工作强调了NC的普适性,它延伸到语言建模的新颖和更具挑战性的环境中。在下游,我们希望激发对这一现象的进一步研究,以加深对LLMs – 以及神经网络整体的了解,并基于NC相关属性改进现有架构。
大模型日报(5月29日 学术篇)http://arxiv.org/abs/2405.17767v1
04

超越固定训练时长的训练的缩放规律和计算优化

规模已经成为获取强大机器学习模型的主要因素。因此,理解模型的规模特性对于有效设计正确的训练设置和未来架构至关重要。本文认为,由于依赖余弦调度,规模和训练研究变得过于复杂,这阻碍了相同模型大小的不同长度的训练。我们研究了一种直接替代方案的训练行为——恒定学习率和冷却,发现它与余弦类似可预测和可靠地扩展。此外,我们发现随机权重平均可在训练轨迹上提供改进的性能,而无需额外的训练成本,适用于不同规模。重要的是,通过这些发现,我们展示了规模实验可以通过利用较少但可重复使用的训练运行大大减少计算和GPU小时。
大模型日报(5月29日 学术篇)http://arxiv.org/abs/2405.18392v1
05

预训练Transformer中的知识回路

摘要:现代大型语言模型的出色性能根植于其中参数编码的大量知识库,使其能够感知世界并进行推理。我们深入探讨语言模型的计算图,揭示了在表达特定知识方面发挥关键作用的知识电路。我们的实验证实了信息头、关系头和多层感知器在模型内部协同编码知识的方式。此外,我们评估了当前知识编辑技术对这些知识电路的影响,深入洞察了这些编辑方法的功能和限制。最后,我们利用知识电路分析和解释语言模型行为,例如幻觉和上下文学习。我们认为知识电路有潜力推动我们对Transformer的理解,并引导知识编辑方法的改进设计。源代码和数据可在https://github.com/zjunlp/KnowledgeCircuits 获取。
大模型日报(5月29日 学术篇)http://arxiv.org/abs/2405.17969v1
06

渐进一致性模型

最近,一致性模型(CM)在加速扩散模型的生成方面取得了重大进展。然而,在潜空间中进行高分辨率、文本条件图像生成(又称LCM)的应用仍然令人不满。在本文中,我们确定了LCM当前设计中的三个关键缺陷。我们研究了这些限制背后的原因,并提出了Phased Consistency Model(PCM),它泛化了设计空间并解决了所有确定的限制。我们的评估表明,PCM在1-16步骤生成设置中显著优于LCM。虽然PCM专为多步细化设计,但它实现了甚至优于之前的特定设计1步方法的1步生成结果。此外,我们展示了PCM的方法学是多才多艺的,并适用于视频生成,使我们能够训练出最先进的少步文本到视频生成器。更多详细信息请访问 https://g-u-n.github.io/projects/pcm/.
大模型日报(5月29日 学术篇)http://arxiv.org/abs/2405.18407v1
07

SMR:状态记忆重放用于长序列建模

尽管状态空间模型(SSMs)在长序列建模方面表现出色,但仍存在局限性。本文提出了一种新颖的非递归非均匀采样处理策略,用于克服并行卷积计算中的兼容性限制。理论分析揭示了事件触发控制(ETC)理论视角下的SSMs的非稳定状态问题,调整输入序列可以缓解该问题。引入了一种简单且有效的插入式机制,状态记忆重现(SMR),可实现一系列SSM模型的普适性。SMR机制对长序列建模任务的实验表明其普遍有效性。
大模型日报(5月29日 学术篇)http://arxiv.org/abs/2405.17534v1
08

学习物理定律的下一帧预测的力量

下一帧预测是一种用于建模和理解视频数据动态的有用和强大的方法。受因果语言建模和语言建模中下一个token预测的经验成功启发,我们探索下一帧预测在诱导对视觉世界理解方面作为一种强大的基础学习策略(类似于语言建模)的程度。为了量化下一帧预测诱导的具体视觉理解,我们提出了六个从基本物理定律派生的诊断仿真视频数据集,这些定律是通过改变重力和质量等物理常数创建的。我们证明,我们的模型仅训练在下一帧预测上能够预测这些物理常数的值(如重力),而没有直接通过回归任务训练来学习这些常数。我们发现,生成训练阶段单独诱导出的模型状态可以显著比随机模型更好地预测物理常数,将损失改善了1.28到6.24倍。我们得出结论,下一帧预测显示出作为一种泛化学习策略的巨大潜力,可以诱导理解统治视觉领域的许多’法则’,而无需明确标记的需要。
大模型日报(5月29日 学术篇)http://arxiv.org/abs/2405.17450v1
09

ORLM:为优化建模训练大语言模型

大语言模型(LLMs)已经成为强大的自动化优化建模操作研究(OR)工具,但目前的方法学主要依赖于提示工程(例如多智能体协作)与专有LLMs,引发了可能会在行业应用中具有限制性的数据隐私问题。为了解决这个问题,我们提议训练用于优化建模的开源LLMs。我们确定了OR LLMs训练数据集的四个关键要求,设计并实现了OR-Instruct,这是一个针对特定要求创建合成数据的半自动化过程。我们还引入了IndustryOR基准,这是首个用于测试LLMs解决实际OR问题的工业基准。我们应用来自OR-Instruct的数据到各种7b大小的开源LLMs(称为ORLMs),显著提高了优化建模能力。我们表现最佳的ORLM在NL4OPT、MAMO和IndustryOR基准上达到了最先进的性能。我们的代码和数据将在url{https://github.com/Cardinal-Operations/ORLM}上提供。
大模型日报(5月29日 学术篇)http://arxiv.org/abs/2405.17743v1
HuggingFace&Github

01

HippoRAG

HippoRAG 是一种新颖的检索增强生成(RAG)框架,受到人类长期记忆的神经生物学机制启发而设计。它可以让大语言模型持续整合来自外部文档的知识,并且只需要很少的计算资源就能实现 RAG 系统通常需要耗费大量计算成本的功能。
大模型日报(5月29日 学术篇)https://github.com/OSU-NLP-Group/HippoRAG
02

The LLooM

这是一个利用大型语言模型(LLM)进行创造性写作的实验性项目,名为”The LLooM”。它采用了一种新颖的推理方法,不是使用简单的贪婪解码,而是利用原始的LLM逻辑线索,逐步编织生成较高概率的文本片段。
大模型日报(5月29日 学术篇)https://github.com/the-crypt-keeper/LLooM
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15038.html

Like (0)
Previous 2024-05-28 20:43
Next 2024-05-29 23:56

相关推荐

  • #资源分享 机器学习

    近期参加了几个Google的会议,顺便分享几个不错的资源: 1. 如何与机器学习做朋友,很适合入门,通俗易懂;对其中拿小金人和数据集做比较,烹饪和类比机器学习的流程,印象深刻。 2…

    2022-12-12
    219
  • 大模型日报(4月26日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-04-26
    125
  • ChatGPT-4发布,燎原之势无法阻挡~

    ChatGPT4终于发布了! 今天,Open AI 宣布了最新版本 GPT-4。新模型被描述为“OpenAI 努力扩大深度学习的最新里程碑”,并在性能方面进行了一些重大升级,并提供…

    2023-03-15
    131
  • 大模型日报(4月30日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-04-30
    108
  • 大模型日报(6月13日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-13
    121
  • 大模型日报(6月17日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-17
    145
  • AI学术 | AIgents 数据科学和机器学习,精准省时又免费的学习向导! (一)

    AIgents,在数据科学和机器学习领域,竟然有如此多有价值、且免费的学习资源,尤其是其清晰、可互动的路线图Roadmap,实在让人印象深刻! 最近放了个空,偷了点懒,于是,被好多…

    2023-07-23
    162
  • 大模型日报(6月24日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-24
    190
  • 大模型日报(5月25~26日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-05-26
    163
  • 500+AI工具大荟萃,一站式人工智能工具聚集地!

    大厂AI大模型频繁更替,小团队AI应用更是层出不穷! 你还再烦恼找不到合适的AI工具?不妨在这里逛一逛,这里分门别类聚集了500多款AI工具,几乎应有尽有! 这是昨天一位素未谋面的…

    2023-06-15
    135