大模型日报(8月15日 学术篇)

特别活动

大模型日报(8月15日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(8月15日 学术篇)

论文

01

Aquila2 技术报告

本文介绍了Aquila2系列,其中包含参数为70、34和7亿的各种双语模型。这些模型是基于一个名为HeuriMentor(HM)的创新框架训练的,该框架提供了对模型收敛的实时洞察,并增强了训练过程和数据管理。HM系统包括自适应训练引擎(ATE)、训练状态监视器(TSM)和数据管理单元(DMU),允许精确监控模型的训练进度,并实现数据分配的有效优化,从而增强训练效果。广泛的评估显示,Aquila2模型系列在英文和中文基准上表现出色。具体而言,当量化为Int4时,Aquila2-34B的性能仅略有下降。此外,我们已经公开发布了我们的训练代码和模型权重,以支持正在进行的研究和应用程序开发。
大模型日报(8月15日 学术篇)
大模型日报(8月15日 学术篇)http://arxiv.org/abs/2408.07410v1
02

DataVisT5: 一个用于联合理解文本和数据可视化的预训练语言模型

数据可视化(DV)是提高传达大数据背后见解效率的基本和前提工具,在现实数据驱动的世界中被广泛接受。DV中的任务自动化,如将自然语言查询转换为可视化(即文本到可视化),从可视化生成解释(即可视化到文本),以自由形式回答与DV相关的问题(如FeVisQA),以及解释表格数据(即表格到文本),对推动该领域至关重要。尽管存在潜力,但预训练语言模型(PLMs)如T5和BERT在DV中的应用受到高成本和处理跨模态信息挑战的限制,导致对PLMs在DV中的研究较少。我们引入DataVisT5,这是一种专为DV量身定制的新型PLM,通过混合目标预训练和多任务微调策略增强了T5架构,将文本和DV数据集整合在一起,以有效解释跨模态语义。在公共数据集上进行的广泛评估表明,DataVisT5在各种与DV相关的任务上始终优于当前最先进的模型。我们期待DataVisT5不仅将激发对垂直PLMs的进一步研究,还将拓展PLMs的应用范围。
大模型日报(8月15日 学术篇)
大模型日报(8月15日 学术篇)http://arxiv.org/abs/2408.07401v1
03

MathScape:通过分层基准评估多模态数学场景中的MLLMs

随着多模态大语言模型(MLLMs)的发展,多模态模型在数学问题领域的评估已经成为一个有价值的研究领域。多模态视觉-文本数学推理是评估MLLMs理解和复杂多步定量推理能力的关键指标。然而,先前的多模态数学基准测试并未充分整合视觉和文本信息。为了弥补这一空白,我们提出了MathScape,一个强调理解和应用综合视觉和文本信息的新基准测试。MathScape旨在评估基于照片的数学问题场景,通过分类层次方法评估MLLMs的理论理解和应用能力。我们对11种先进的MLLMs进行了多维度评估,发现我们的基准测试即使对于最复杂的模型也具有挑战性。通过分析评估结果,我们找到了MLLMs的局限性,为提升模型性能提供了宝贵的见解。
大模型日报(8月15日 学术篇)http://arxiv.org/abs/2408.07543v1
04

训练后的稀疏关注与双重稀疏

摘要:大语言模型的推理过程速度慢且占用内存,其中关键瓶颈之一是过多的Key-Value(KV)缓存访问。本文引入了“双稀疏”技术,这是一种新颖的后训练稀疏注意力技术,旨在通过减少KV缓存访问来缓解这一瓶颈。双稀疏结合了token稀疏,专注于仅利用重要token进行自注意力计算,以及通道稀疏,一种利用重要特征通道来识别重要token的方法。我们的关键观点是通道稀疏的模式相对静态,允许我们使用离线校准使其在运行时更加高效,从而实现精确和高效的重要token识别。此外,该方法可与卸载技术相结合,实现显著的内存使用减少。实验结果表明,双稀疏技术可以在各种任务中实现最低影响的(frac{1}{16}) token和通道稀疏,包括wiki-2 perplexity、键值检索和长上下文基准测试,模型包括Llama-2-7B、Llama-2-70B和Mixtral-8x7B。在GPU上,它在注意力运算速度上提高了最多14.1倍,并在端到端推理上提高了1.9倍。通过卸载技术,在长度为256K的情况下,它相比最先进的解决方案实现了16.3倍的解码速度加速。我们的代码可以在url{https://github.com/andy-yang-1/DoubleSparse}上公开获取。
大模型日报(8月15日 学术篇)
大模型日报(8月15日 学术篇)http://arxiv.org/abs/2408.07092v1
05

MathBridge: 一个用于将数学表达式翻译为公式图片的大规模数据集

理解文本形式中包含数学表达式的句子存在重大挑战。为了解决这一问题,强调了将这些表达式转换为公式图像的重要性。为了开发文本到图像转换系统,我们可以将该过程分为文本到LaTeX和LaTeX到图像转换两部分,后者由现有的各种LaTeX引擎管理。然而,前者的方法受到了文本到LaTeX配对数据严重稀缺的严重阻碍,在该领域中存在重大挑战。在这种情况下,我们提出了MathBridge,这是第一个将数学英语转换为LaTeX的大规模数据集,旨在为未来文本到LaTeX翻译研究建立健全的基准。MathBridge包含约2300万个LaTeX公式,配对对应的口语英语表达式。通过包括微调和数据测试在内的全面评估,我们发现MathBridge显著增强了预训练语言模型在文本到LaTeX翻译方面的能力。具体来说,对于T5-large模型,sacreBLEU分数从4.77提高到46.8,表明了实质性的增强。我们的发现表明有必要为文本到LaTeX转换评估制定一个新的度量标准。
大模型日报(8月15日 学术篇)
大模型日报(8月15日 学术篇)http://arxiv.org/abs/2408.07081v1
HuggingFace&Github

01

ai-toolkit

这个项目是一个 AI 工具包,提供了一个基于 PyTorch 的 Stable Diffusion 训练框架,支持 LoRA、LoCON 等模型训练和微调,支持自定义扩展,可以方便地开发和共享自定义训练和处理功能。

大模型日报(8月15日 学术篇)https://github.com/ostris/ai-toolkit

02

SlotLifter

SlotLifter 是一种新颖的对象中心辐射模型,解决场景重建和分解的挑战。它通过插槽引导特征提升的方法,将对象中心学习表示与基于图像的渲染方法结合起来。SlotLifter 在四个具有挑战性的合成数据集和四个复杂的真实世界数据集上,展示了在场景分解和新视角合成方面的先进性能,显著超越了现有的 3D 对象中心学习方法。
大模型日报(8月15日 学术篇)https://slotlifter.github.io/
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/08/13629.html

Like (0)
Previous 2024-08-15 13:58
Next 2024-08-16 18:17

相关推荐

  • 大模型日报(8月17~18日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-18
    239
  • #文献阅读# 五步让你提高文献阅读的掌控感

    大量的文献阅读常常会让人迷失,对于某些篇幅较大的文章,尤其是其中还涵盖了一些陌生概念的内容,阅读的时间一久,读者就容易进入精神涣散的状态。 文献读完后依然不知道文章质量好不好,与我…

    2022-08-16
    170
  • 大模型日报(9月13日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-13
    294
  • 一个不错的机器学习bootcamp

    https://github.com/alexeygrigorev/mlbookcamp-code ​ 推荐原因 1. 内容系统,基于一本著名图书; 2. 实战导向,除了基本的机器…

    2022-11-09
    110
  • 大模型日报(7月2日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-02
    213
  • 大模型日报(8月31日~9月1日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-01
    269
  • 大模型日报(5月11~12日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-12
    142
  • 大模型日报(8月6日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-06
    230
  • Meta(Facebook)终于按耐不住, 六模态开源AI模型ImageBind到底如何?

    Meta(Facebook)终于按耐不住,也推出了自己的基于计算机视觉的多模态开源AI模型ImageBind! 这是目前第一个能够同时绑定来自六种模式数据的 AI 模型,且无需明确…

    2023-05-11
    236
  • 大模型日报(4月18日 学术篇)

    欢迎观看大模型日报,进入大模型日报群和空间站(活动录屏复盘聚集地)请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 学习 01 DSPy 入门: 再见提示…

    2024-04-18
    105