大模型日报(5月15日 学术篇)

特别活动

大模型日报(5月15日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月15日 学术篇)

论文

01

超越缩放定律:用关联记忆理解Transformer的性能

增加Transformer模型的大小并不总是会提高性能。这一现象无法用经验法则来解释。此外,改善泛化能力是因为模型记忆了训练样本。我们提出了一个理论框架,阐明了基于Transformer的语言模型的记忆过程和性能动态。我们使用Hopfield网络模拟了Transformers与关联记忆的行为,使得每个Transformer块有效地进行近似最近邻搜索。基于此,我们设计了一个类似于现代连续Hopfield网络中的能量函数,为注意力机制提供了一个有见地的解释。利用主导-最小化技术,我们构建了一个捕捉Transformer分层结构的全局能量函数。在特定条件下,我们表明最小化的交叉熵损失下限大约为1。我们通过在各种数据规模上与GPT-2进行实验,以及在包含2M token数据集上训练vanilla Transformer来证实了我们的理论结果。
大模型日报(5月15日 学术篇)http://arxiv.org/abs/2405.08707v1
02

使用动态可组合的多头注意力优化Transformer

多头注意力(MHA)是Transformer的关键组成部分。在MHA中,注意力头独立工作,导致注意力分数矩阵的低秩瓶颈和头部冗余等问题。我们提出了动态组合多头注意力(DCMHA),这是一种参数和计算高效的注意力架构,解决了MHA的缺点,并通过动态组合注意力头来增加模型的表达能力。DCMHA的核心是一个 $$it{Compose$$ 函数,以输入为依据变换注意力分数和权重矩阵。DCMHA可以作为任何Transformer架构中MHA的替代品,获得相应的DCFormer。DCFormer在不同架构和模型规模上在语言建模中明显优于Transformer,与计算量为~1.7x-2.0x的模型表现相匹配。例如,DCPythia-6.9B在预训练困惑度和下游任务评估上均优于开源Pythia-12B。代码和模型可在https://github.com/Caiyun-AI/DCFormer找到。
大模型日报(5月15日 学术篇)http://arxiv.org/abs/2405.08553v1
03

CinePile:一个长视频问答资料集和基准

当前用于长视频理解的数据集往往无法提供真正的长篇理解挑战,因为这些数据集衍生出的许多任务只需分析视频中的一个或几个随机帧即可成功解决。为解决这一问题,我们提出了一个新颖的数据集和基准,CinePile,专门设计用于真实的长视频理解。本文详细介绍了我们创建问答数据集的创新方法,利用先进的LLM与人为环式,并建立在人生成的原始数据之上。我们的综合数据集包括305,000道多项选择题,涵盖各种视觉和多模态方面,包括时间理解、理解人与物体的互动,以及在场景中推理事件或行为。此外,我们评估了最近的以视频为中心的LLM,包括开源和专有的,对我们数据集的测试部分进行了评估。研究结果显示,即使是最先进的以视频为中心的LLM在这些任务上也远远落后于人类表现,突显了视频理解中固有的复杂性和挑战性。数据集可在https://hf.co/datasets/tomg-group-umd/cinepile获取。
大模型日报(5月15日 学术篇)http://arxiv.org/abs/2405.08813v1
04

EfficientTrain++: 高效视觉主干训练的通用课程学习

现代视觉骨干模型的卓越性能通常伴随着昂贵的训练过程。我们通过将课程学习的想法概括到其原始形式之外来解决这个问题,即使用更简单到更困难的数据来训练模型。具体地,我们将训练课程重新定义为一个软选择函数,它在训练过程中逐渐揭示每个示例中更困难的模式,而不是执行更简单到更困难的样本选择。我们的工作受到一个有趣的观察的启发,即在训练的早期阶段,模型主要学习识别数据中一些“更容易学习”的判别模式。受这些发现的启发,我们提出了一个课程计划,其中模型始终利用每个学习阶段的所有训练数据,但每个示例中“更容易学习”的模式首先被引入,随着训练的进行逐渐引入更困难的模式。为了以高效的方式实现这个想法,我们在输入的傅里叶频谱中引入了一种裁剪操作,使模型仅从较低频率组件中学习。然后我们展示了通过调节数据增强的强度可以轻松实现曝光自然图像的内容。最后,我们将这些方面整合起来,设计了具有定制搜索算法的课程计划。我们提出的方法EfficientTrain++简单、通用,但效果惊人。它将多种流行模型的训练时间在ImageNet-1K/22K上减少了1.5-3.0倍,而不会损失准确性。它还证明了在自监督学习中的有效性。
大模型日报(5月15日 学术篇)http://arxiv.org/abs/2405.08768v1
05

完整代码补全:将人工智能带到桌面

在最近几年,出现了一些解决多token代码自动补全问题的工业解决方案,每个都在这个领域取得了很大的进展,但主要集中在基于云的运行时,避免在最终用户设备上运行。在这项工作中,我们描述了我们构建JetBrains’ IntelliJ Platform的多token代码自动补全功能的方法,我们称之为全行代码自动补全。该功能仅建议语法正确的代码,并完全在本地运行,即数据查询和建议生成发生在最终用户的机器上。我们分享了代码自动补全引擎应满足的重要时间和内存消耗限制,以及设计原则。我们的代码自动补全引擎完全在最终用户的设备上运行,丰富用户体验,不仅快速、紧凑,而且安全。我们分享了一些有用的技术来满足所述的开发约束,并描述了离线和在线评估流程,这让我们能够做出更好的决策。我们的在线评估显示,使用该工具会导致IDE中通过代码自动补全产生的代码量增加1.5倍。所描述的解决方案最初是借助研究人员开始的,并在2023年底捆绑到了两款JetBrains’ IDE中 – PyCharm Pro和DataSpell,因此我们相信这项工作有助于架起学术界和工业界之间的桥梁,为研究人员提供将复杂的基于研究的解决方案集成到实际产品中时所发生的知识。
大模型日报(5月15日 学术篇)http://arxiv.org/abs/2405.08704v1
HuggingFace&Github

01

Funclip

FunClip是一款完全开源、本地部署的自动化视频剪辑工具,通过调用阿里巴巴通义实验室开源的 FunASR Paraformer系列模型进行视频的语音识别,随后用户可以自由选择识别结果中的文本片段或说话人,点击裁剪按钮即可获取对应片段的视频
大模型日报(5月15日 学术篇)https://github.com/alibaba-damo-academy/FunClip
02

腾讯混元——DiT

Hunyuan-DiT 是一个强大的多分辨率扩散变压器模型,具有对中英文的细粒度理解能力。它采用精心设计的模型架构和数据管道,能够进行多轮多模态对话,根据上下文生成和细化图像。通过全面的人工评估,Hunyuan-DiT 在中文到图像生成任务上取得了当前最佳的性能。
大模型日报(5月15日 学术篇)https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15410.html

Like (0)
Previous 2024-05-14 19:32
Next 2024-05-16 16:04

相关推荐