大模型日报(6月13日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月13日 学术篇)

论文

01

如果我们用LLaMA-3重新添加数十亿张网络图片的描述会怎样?

摘要:网络爬取的图像文本对存在固有的噪音。先前的研究表明,语义对齐和丰富这些对的文本描述可以显著增强各种视觉语言任务的模型训练,特别是文本到图像生成。然而,这一领域的大规模调查仍然主要是闭源的。我们的论文旨在搭建这一社区努力,利用强大且开源的 LLaMA-3,一种GPT-4级LLM。我们的重新标题流程很简单:首先,我们微调一个由LLaMA-3-8B驱动的LLaVA-1.5,然后利用它重新标题DataComp-1B数据集中的13亿个图像。我们的实证结果证实,这种增强的数据集Recap-DataComp-1B在训练先进的视觉语言模型方面带来了实质性的好处。对于像CLIP这样的辨别模型,我们观察到在跨模态检索任务中的零-shot性能有所提升。对于像文本到图像Diffusion Transformers这样的生成模型,生成的图像在与用户文本指令的对齐方面显示出明显改善,特别是在遵循复杂查询时。我们的项目页面是https://www.haqtu.me/Recap-Datacomp-1B/
大模型日报(6月13日 学术篇)http://arxiv.org/abs/2406.08478v1
02

一项基于 Mamba 的语言模型的实证研究

选择性状态空间模型(SSM)如Mamba克服了Transformer的一些缺点,例如随着序列长度呈二次计算复杂性和查询时间需要大量内存的无法容忍。此外,最近的研究表明,SSM可以匹配或超过Transformer的语言建模能力,使其成为一个有吸引力的替代方案。然而,迄今为止的研究只是在受控设置下(例如,相同的数据集)展示了小规模实验,比较了SSM和Transformer。为了了解这些架构在更大规模上的优势和劣势,我们在相同的数据集上直接比较了8B参数的Mamba、Mamba-2和Transformer模型,训练的token数量多达3.5T。我们还将这些模型与一个由43% Mamba-2、7%注意力和50% MLP层组成的混合架构(Mamba-2-Hybrid)进行了比较。通过使用各种任务,我们回答了Mamba模型能否在更大的训练预算下匹配Transformer的问题。我们的结果显示,尽管纯SSM在许多任务上与Transformer匹配或超过,但是在需要强大的复制或上下文学习能力(例如,5-shot MMLU、电话簿)或长上下文推理的任务上,它们落后于Transformer。相反,我们发现8B的Mamba-2-Hybrid在所有12项标准任务上超越了8B的Transformer(平均增加2.65个点),在生成token时推理速度预计可高达8倍。为验证长上下文能力,我们进行了额外的实验,评估了针对支持16K、32K和128K序列的Mamba-2-Hybrid和Transformer的变体。在额外的23个长上下文任务中,混合模型在平均水平上继续接近或超过Transformer。为了进一步研究,我们将检查点和用于训练模型的代码作为NVIDIA的Megatron-LM项目的一部分发布。
大模型日报(6月13日 学术篇)http://arxiv.org/abs/2406.07887v1
03

下一代数据库界面:基于LLM的文本到SQL的调查

生成准确的SQL是一个长期存在的问题,因为对自然语言问题进行处理、数据库架构理解和SQL生成都是具有挑战性的。传统的text-to-SQL系统包括人工工程和深度神经网络。随后,预训练语言模型(PLMs)已经被开发并用于text-to-SQL任务,取得了令人期待的表现。随着现代数据库变得更加复杂以及相应的用户问题变得更具挑战性,具有有限理解能力的PLMs可能会导致不正确的SQL生成。最近,大型语言模型(LLMs)在自然语言理解方面展现了显著的能力。因此,将LLM-based实施集成到text-to-SQL中可以为研究带来独特的机会、挑战和解决方案。在这项调查中,我们对基于LLM的text-to-SQL进行了全面的审查。具体来说,我们提出了当前挑战的简要概述和text-to-SQL的演进过程。然后,我们详细介绍了设计用于评估text-to-SQL系统的数据集和度量标准。之后,我们对基于LLM的text-to-SQL的最新进展进行了系统分析。最后,我们讨论了这一领域仍然存在的挑战,并提出了未来发展的期望。
大模型日报(6月13日 学术篇)http://arxiv.org/abs/2406.08426v1
04

线性回归的缩放定律:计算、参数和数据

大规模深度学习模型经验上通常满足神经规模定律:训练模型的测试错误随着模型规模和数据规模的增长呈多项式改进。然而,传统智慧认为测试错误包括逼近、偏差和方差误差,其中方差误差随着模型规模增加而增加。这与神经规模定律的一般形式不符,后者预测增大模型规模会单调地改善性能。
我们研究在无限维线性回归设置中的定律理论。具体而言,我们将具有$ M $参数的模型视为对简化协变量的线性函数。该模型通过一次随机梯度下降(SGD)使用$ N $数据进行训练。假设最优参数满足高斯先验,并且数据协方差矩阵具有幂律谱,度数为$ a>1 $,我们表明测试错误的可降部分为$ Theta(M^{-(a-1)} + N^{-(a-1)/a} ) $。随着$ M $增加的方差误差被由于SGD的隐式规整化而被主导的其他误差所掩盖,因此从这个界限中消失。我们的理论与经验神经规模定律一致,并经数值模拟验证。
大模型日报(6月13日 学术篇)http://arxiv.org/abs/2406.08466v1
05

短长卷积有助于硬件高效的线性注意力集中处理长序列

为了缓解处理长序列中的自注意力机制的计算复杂性,线性注意力利用计算技巧实现了线性复杂度,同时状态空间模型(SSMs)普遍采用一种良好的做法,即使用非数据依赖的记忆模式,即强调近处而忽略远处,来处理序列。最近的研究表明了通过将它们结合为一个整体可以获得优先级。然而,线性注意力的效率仍然仅停留在理论级别上,在因果设置中,而SSMs需要各种设计良好的约束条件才能有效地处理特定数据。因此,为了揭示混合设计真正的威力,需要解决以下两个问题:(1)线性注意力的硬件高效实现和(2)SSMs的稳定性。为了实现这一目标,我们利用平铺和层次分层的思想提出了CHELA(短长卷积与硬件高效线性注意力),它用短长卷积替换了SSMs,并以分治方式实现线性注意力。这种方法享有来自稳定SSM和线性注意力的全局抽象和数据依赖选择,同时保持真正的线性复杂度。我们在Long Range Arena基准和语言建模任务上进行了全面实验,证明了所提出方法的有效性。
大模型日报(6月13日 学术篇)http://arxiv.org/abs/2406.08128v1
06

UICoder:通过自动反馈微调大语言模型以生成用户界面代码

大语言模型(LLMs)在生成符合视觉设计要求且可编译的UI代码时存在困难。现有方法依赖昂贵的人工反馈或提炼专有模型来改进生成过程。本文提出使用自动化反馈(编译器和多模态模型)引导LLMs生成高质量UI代码。我们的方法从现有LLM开始,通过自动生成大规模合成数据集,利用自动化工具对数据进行严格过滤、评分和去重,生成更优质的数据集,然后通过在此数据集上微调原LLM来改进模型。我们将这种方法应用到几个开源LLMs上,并通过自动化指标和人类偏好与基准模型进行比较。评估结果显示,生成的模型胜过所有其他可下载的基线模型,并接近较大的专有模型性能。
大模型日报(6月13日 学术篇)http://arxiv.org/abs/2406.07739v1
HuggingFace&Github

01

L3-8B-Stheno-v3.2

L3-8B-Stheno-v3.2 在训练过程中融合了多种数据集,包括短篇故事生成、指令式对话以及聊天日志数据。与上一版本相比,该模型在处理 SFW 和 NSFW 内容、故事写作、助手任务等方面都有所改进,同时在多轮对话连贯性和提示遵循度上也有所提升,尽管创造力略有下降。作者推荐使用特定的采样设置来充分发挥该模型的性能。
大模型日报(6月13日 学术篇)https://huggingface.co/Sao10K/L3-8B-Stheno-v3.2
02

Aidapal

aidapal 是一个集成了大型语言模型的 IDA Pro 插件,利用人工智能技术来辅助逆向工程师分析二进制代码。它使用了微调过的 LLM 模型来生成 Hex-Rays 伪代码,帮助提高代码分析的效率和准确性。aidapal 的源代码、模型权重和训练数据都可以从 Hugging Face 上下载,开发者可以自行部署和使用。这个插件结合了机器学习和逆向工程领域的前沿技术,为二进制代码分析带来了新的解决方案。
大模型日报(6月13日 学术篇)https://github.com/atredispartners/aidapal
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14758.html

Like (0)
Previous 2024-06-13 10:12
Next 2024-06-13 22:27

相关推荐

  • AI学术 | Jenni AI 从0到1量身定制,加速你的论文写作!(一)

    如果说有一款神器可以实现从0到1量身定制,加速你的论文写作,Jenni ai无疑是其中之一! 注册过程我就省略了,只要使用自己的邮箱并确认即可,我们直接进入写作过程。 首先,选择你…

    2023-08-13
    158
  • 大模型日报(8月6日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-06
    231
  • 大模型日报(5月6-7日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-07
    179
  • 实战Elicit, 让你惊艳的AI学术研究工作神器(三)

    Systematic Literature Review绝对是每个学术研究工作者的必经之路,顺利完成一篇SLR才能代表你真正了解该领域,成为该领域的专家,并且知道在该领域有哪些Ga…

    2023-06-06
    105
  • AI学术 | AIgents 数据科学和机器学习,精准省时又免费的学习向导! (一)

    AIgents,在数据科学和机器学习领域,竟然有如此多有价值、且免费的学习资源,尤其是其清晰、可互动的路线图Roadmap,实在让人印象深刻! 最近放了个空,偷了点懒,于是,被好多…

    2023-07-23
    162
  • 大模型日报(10月1-7日国庆特刊 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-10-08
    299
  • AI大热之下,AI先驱Hinton为何主动放弃?

    “人工智能教父”Geoffrey Hinton 离开谷歌并警告前方有危险~ 半个世纪以来,Geoffrey Hinton 培育了 ChatGPT 等聊天机器人的核心技术。 然而,现…

    2023-05-03
    97
  • 大模型日报(4月9日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 密集训练,稀疏推断:重新思考混合专家语言模型…

    2024-04-09
    185
  • 大模型日报(6月27日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-27
    191
  • 大模型日报(6月11日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-11
    173