大模型日报(5月28日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月28日 学术篇)

论文

01

SWEAgent:智能体-计算机界面实现自动化软件工程

摘要:软件工程是一项具有挑战性的任务,需要精通代码生成和与计算机交互的能力。在本文中,我们介绍了SWE-智能体,这是一个使用语言模型与计算机交互来解决软件工程任务的自主系统。我们展示了一个定制的智能体-计算机界面(ACI)极大地提升了智能体创建和编辑代码文件、浏览整个代码库以及执行程序的能力。在SWE-bench上,SWE-智能体能够解决12.5%的问题,而之前使用检索增强生成(RAG)达到的最佳结果为3.8%。我们探讨了ACI设计如何影响智能体的行为和性能,并提供了有效设计的见解。
大模型日报(5月28日 学术篇)http://arxiv.org/abs/2405.15793v1
02

视觉语言建模介绍 

随着大型语言模型(LLMs)的近期流行,人们已经尝试将它们扩展到视觉领域。从拥有能够指导我们穿越陌生环境的视觉助手到仅使用高级文本描述生成图像的生成模型,视觉语言模型(VLM)的应用将显著影响我们与技术的关系。然而,有许多挑战需要解决,以提高这些模型的可靠性。为了更好地理解将视觉映射到语言背后的机制,我们介绍了这篇VLM的简介,希望能帮助想进入该领域的任何人。首先,我们介绍了VLM是什么,它们如何工作以及如何训练它们。然后,我们介绍并讨论评估VLM的方法。尽管这项工作主要集中于将图像映射到语言,但我们也讨论了将VLM扩展到视频的可能性。
大模型日报(5月28日 学术篇)http://arxiv.org/abs/2405.17247v1
03

Zamba:一个紧凑 7B SSM 混合模型

在这份技术报告中,我们提出了Zamba,一个新颖的7B SSM-Transformer混合模型,在相同规模下表现出色,与领先的开放权重模型竞争。Zamba在公开可用的数据集上训练了1T个token,是这个规模下最好的非Transformer模型。Zamba开创了一个独特的架构,将Mamba骨干与单个共享注意模块结合,从而以最小的参数成本获得注意力的好处。由于其架构,Zamba在推理时明显比可比的Transformer模型更快,并且在生成长序列时需要更少的内存。Zamba分两个阶段进行预训练:第一阶段基于现有的网络数据集,而第二阶段包括将模型调教在高质量的指导和合成数据集上,并具有快速的学习率下降。我们通过第1阶段和退火阶段公开了Zamba的权重和所有检查点。
大模型日报(5月28日 学术篇)http://arxiv.org/abs/2405.16712v1
04

NV-Embed: 改进训练LLM作为通用嵌入模型的技术

Decoder-only 大型语言模型(LLM) 基础的嵌入模型在通用文本嵌入任务中逐渐超越了基于 BERT 或 T5 的嵌入模型,包括基于密集向量的检索。在这项工作中,我们引入了 NV-Embed 模型,采用多种架构设计和训练程序,显著提升了LLM作为通用嵌入模型的性能,同时保持其简单性和可重现性。我们提出了一种潜在注意力层来获取汇总嵌入,与均值池化或使用LLM中最后的 <EOS> token 嵌入相比,它们持续改善了检索和下游任务的准确性。为增强表示学习,我们在对比训练过程中去除了LLM的因果注意力掩码。在模型训练方面,我们引入了两阶段对比说明微调方法。首先,我们在检索数据集上应用带有说明的对比训练,利用批内负例和策划的困难负例。在第二阶段,我们将各种非检索数据集融入说明微调,不仅提高了非检索任务的准确性,还提高了检索性能。结合这些技术,我们的 NV-Embed 模型仅使用公开数据,在2024年5月24日,取得了69.32的记录高分,排名 Massive Text Embedding Benchmark (MTEB)第一(截至目前),涵盖检索、重新排序、分类、聚类和语义文本相似性任务等56个任务。值得注意的是,我们的模型在 MTEB 基准测试中的15个检索任务中也取得了最高的59.36分。我们将在以下网址开源模型:https://huggingface.co/nvidia/NV-Embed-v1。
大模型日报(5月28日 学术篇)http://arxiv.org/abs/2405.17428v1
05

状态空间模型的表达能力:一个形式语言的视角

最近,基于线性状态空间模型(SSMs)的循环模型在语言建模(LM)方面表现出有希望的性能,与Transformer相媲美。然而,对于这类模型的原则能力还知之甚少,而这可能对寻找更好的LM架构提供有用指导。我们对SSMs的容量进行了全面的理论研究,将其与Transformer和传统RNN进行比较。我们发现,SSMs和Transformer有重叠但又不同的优势。在无零星状态跟踪中,SSMs实现了对问题的直接和精确解决方案,这是Transformer难以精确表示的。它们还可以模拟有界的分层结构,即使不模拟堆栈,也能以最佳内存对其进行建模。另一方面,我们发现目前SSMs中的一个设计选择限制了它们的表达能力。我们讨论了对SSM和LM研究的影响,并在最近的SSM“Mamba”上通过实证验证结果。
大模型日报(5月28日 学术篇)http://arxiv.org/abs/2405.17394v1
06

弱到强泛化的理论分析

强大的智能体模型可以从较弱的教师那里学习:当训练于较弱模型的预测时,一个强大的预训练学生可以学会更正弱模型的错误,并泛化到教师不自信的示例,甚至这些示例未被包含在训练中。这使得可以从便宜、不完整和可能不正确的标签信息中学习,比如粗略的逻辑规则或语言模型的生成。我们发现现有的弱监督理论无法解释这两个效应,分别称为伪标签更正和覆盖范围扩展。我们提出一种基于数据分布和智能体假设类的扩展属性的全新界限,直接考虑伪标签更正和覆盖范围扩展。我们的界限捕捉到这样一个直觉,即在没有增加额外错误的情况下,强模型无法适应弱教师的错误情况时会发生弱到强的泛化。我们展示了这些扩展属性可以通过有限数据验证,并给出了在实践中它们成立的经验证据。
大模型日报(5月28日 学术篇)http://arxiv.org/abs/2405.16043v1
07

不同长度、恒定速度:使用闪电注意力实现高效语言建模

我们提出了 Lightning Attention,这是第一个保持在固定记忆消耗下各种序列长度训练速度恒定的线性注意力模型。由于累积求和操作(cumsum)存在问题,先前的线性注意力实现在普通场景下无法发挥其理论优势。然而,通过利用不同的注意力计算策略来计算注意力的不同部分,这个问题可以被有效地解决。具体来说,我们将注意力计算分为块内和块间,并使用传统的注意力计算方法来处理块内部分,使用线性注意力核技巧来处理块间部分。这消除了线性注意力计算中对cumsum的需求。此外,我们采用了平铺技术,在正向和反向过程中充分利用GPU硬件。为了提高准确性并保持有效性,我们推出了 TransNormerLLM(TNL),这是一个专门针对我们 Lightning Attention 的新架构。我们在标准和自采集的数据集上进行了严格测试,涵盖不同模型大小和序列长度。TNL比其他语言模型更有效率。此外,基准结果表明,TNL与利用传统Transformer结构的最先进LLM性能相当。源代码发布在 github.com/OpenNLPLab/TransnormerLLM。
大模型日报(5月28日 学术篇)http://arxiv.org/abs/2405.17381v1
08

从统一视角揭示线性复杂性序列模型的秘密

我们提出了线性复杂度序列模型(LCSM),这是一个综合性解决方案,将线性复杂度的各种序列建模技术(包括线性注意力、状态空间模型、长卷积和线性循环神经网络)融合到一个框架中。我们通过从一致和简化的视角分析每个组件的影响,旨在增强对这些模型的理解。具体地,我们将这些模型的建模过程分为三个不同阶段:扩展(Expand)、振荡(Oscillation)和收缩(Shrink)(EOS),每个模型都有其特定的设置。扩展阶段涉及将输入信号投影到高维存储状态上。接着,在振荡阶段对存储状态进行递归操作。最后,在收缩阶段将存储状态投影回低维空间。我们进行了全面实验,分析不同阶段设置对语言建模和检索任务的影响。结果显示,数据驱动方法对于语言建模三个阶段的有效性至关重要,而手工设计方法在检索任务中表现更佳。
大模型日报(5月28日 学术篇)http://arxiv.org/abs/2405.17383v1
HuggingFace&Github

01

Uni-MoE

Uni-MoE是一款基于Mixture of Experts(MoE)架构的统一多模态语言模型,能够高效地处理文本、图像、音频、视频等多种输入模态。它通过三个阶段的逐步训练,建立了跨模态的连接和专家模块,实现了多模态的统一理解和生成。Uni-MoE拥有丰富的训练数据和优秀的性能,在多模态任务上表现突出,体现了灵活性、可扩展性和高效性的特点,是一款功能强大的统一多模态语言模型。
大模型日报(5月28日 学术篇)https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs
02

CopilotKit

CopilotKit 是一个强大的框架,可帮助开发者在自己的应用程序中构建定制的 AI 助手,包括应用内 AI 聊天机器人、AI 代理和 AI 驱动的文本区域等。它允许 AI 深度集成到应用程序中,感知应用状态并采取行动,同时也支持用户对 AI 行为的观察和干预。
大模型日报(5月28日 学术篇)

大模型日报(5月28日 学术篇)

https://github.com/CopilotKit/CopilotKit
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15069.html

Like (0)
Previous 2024-05-28 18:26
Next 2024-05-29 19:56

相关推荐

  • #ChatGPT一小时完成文献综述(Systematic Literature Review)!

    今天在油管看了几个关于ChatGPT与科研和写作高关注量的视频,有悲观的,有乐观的,也有关注技巧的,都拿出来和大家分享一下。 头两个视频恰恰证明了,ChatGPT能够为实际的科研工…

    2023-02-23
    133
  • 大模型日报(6月11日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-11
    173
  • 大模型日报(4月13~14日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 学习 01 AI 集群基础设施 InfiniBand 详…

    2024-04-14
    143
  • 一个不错的机器学习bootcamp

    https://github.com/alexeygrigorev/mlbookcamp-code ​ 推荐原因 1. 内容系统,基于一本著名图书; 2. 实战导向,除了基本的机器…

    2022-11-09
    110
  • 大模型日报(5月30日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-30
    144
  • 大模型日报(4月16日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 Megalodon:具有无限上下文长度的高效…

    2024-04-16
    191
  • 大模型日报(4月10日 学术篇)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 鹰与金翅雀:使用矩阵值状态和动态…

    2024-04-10
    197
  • 大模型日报(5月10日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-10
    141
  • 大模型日报(6月29~30日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-30
    239
  • 与ChatGPT双向沟通,三步获得文献Idea!

    该文章分为两部分, 前一部分(1~4)为近期背景,即关于ChatGPT在研究和教育方面的事件; 后一部分(5)为ChatGPT在文献阅读的案例分享。 1. 近期背景: 1. 1如下…

    2023-03-10
    173