大模型日报(5月14日 学术篇)

特别活动

大模型日报(5月14日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月14日 学术篇)

论文

01

Plot2Code:科学图表的代码生成中评估多模大语言模型的全面基准测试

摘要:Multi-modal Large Language Models(MLLMs)在视觉背景下表现出色,但它们在将视觉图转化为可执行代码方面的能力尚未得到全面评估。为此,我们引入了Plot2Code,一个旨在公平和深入评估MLLMs的视觉编码能力的综合性视觉编码基准。我们精选了132个高质量的matplotlib图,涵盖六种图类型。对于每个图,我们提供其源代码和由GPT-4总结的描述性指导。除了简单的通过/失败评估,我们采用GPT-4V对生成和参考图像进行综合评判,该评判与人类评估一致。评估结果突显了Plot2Code带来的重大挑战。通过Plot2Code,我们揭示了大多数现有MLLMs在处理文本密集图时的困难,严重依赖文本指导。我们希望Plot2Code对视觉编码的评估结果能指导未来MLLMs的发展。所有关于Plot2Code的数据可在https://huggingface.co/datasets/TencentARC/Plot2Code上获取。

大模型日报(5月14日 学术篇)http://arxiv.org/abs/2405.07990v1

02

Zero-shot tokenizer 转移

语言模型(LMs)与其分词器紧密相关,后者将原始文本映射为一系列词汇项(token)。这限制了它们的灵活性:例如,主要在英语上训练的LMs可能在其他自然和编程语言中仍表现良好,但由于其专注于英语的分词器而效率大为降低。为了缓解这一问题,我们应该能够在不降低性能的情况下实时交换原始LM分词器与任意分词器。因此,在这项工作中,我们定义了一个新问题:零热刀分词器转移(ZeTT)。ZeTT核心挑战在于为新分词器词汇中的token找到嵌入。由于以前的启发式方法在ZeTT场景中通常表现为随机水平,我们提出了一个新解决方案:我们训练一个超网络,以分词器为输入,预测相应的嵌入。我们在实验证明,超网络可泛化到具有编码器(例如,XLM-R)和解码器LMs(例如,Mistral-7B)的新分词器。我们的方法在跨语言和编码任务中接近原始模型的表现,同时大幅减少了token化序列的长度。我们还发现,剩余差距可以通过对少于10亿个token进行持续训练迅速缩小。最后,我们展示了为基础(L)LM训练的ZeTT超网络也可应用于精调变体而无需额外训练。总的来说,我们的结果在将LMs与其分词器分离方面取得了重大进展。
大模型日报(5月14日 学术篇)http://arxiv.org/abs/2405.07883v1
03

课程数据排序:通过课程学习提升大语言模型性能

大语言模型(LLMs)的快速发展提高了文本理解和生成能力,但也带来了计算资源方面的挑战。本研究提出了受课程学习启发的数据中心训练策略,从简单任务开始,逐渐过渡到更复杂的任务,利用提示长度、注意力分数和损失值等标准来构建训练数据。使用Mistral-7B和Gemma-7B模型进行的实验表明,课程学习与传统的随机数据洗牌相比略有改善性能。值得注意的是,我们观察到,基于我们提出的注意力标准对数据进行排序通常会导致更好的性能。这种方法提供了一种可持续的方法来提高LLM的性能,而不增加模型大小或数据集体积,解决了LLM训练中的可扩展性挑战。
大模型日报(5月14日 学术篇)http://arxiv.org/abs/2405.07490v1
04

CoRE: LLM作为自然语言编程、伪代码编程和AI智能体编程的解释器

自编程语言诞生以来,趋向于更易读性和降低程序员的难度。自然语言可能是一种有前途的编程语言类型,提供了极大的灵活性和可用性,有助于编程的民主化。然而,自然语言固有的模糊性、歧义性和冗长性给开发一个能准确理解编程逻辑并执行自然语言指令的解释器带来了显著挑战。最近大语言模型技术的进展表现出了在理解复杂自然语言方面出色的能力。本文受此启发,开发了一个新颖的代码表示和执行系统(CoRE),利用大语言模型作为解释器来解释和执行自然语言指令。提出的系统统一了自然语言编程、伪代码编程和流程编程,使用相同的表示形式来构建语言智能体,而大语言模型则作为解释器来解释和执行智能体程序。在本文中,我们首先定义了一种以逻辑方式结构自然语言指令的编程语法。在执行过程中,我们加入外部存储器以最小化冗余。此外,我们赋予设计的解释器调用外部工具的能力,以弥补大语言模型在专门领域或访问实时信息时的局限性。这项工作是开源的,网址为https://github.com/agiresearch/CoRE。
大模型日报(5月14日 学术篇)http://arxiv.org/abs/2405.06907v1
05

通过自然语言将静态调度器自动转换为动态调度器

本文探讨了大语言模型(LLMs)在动态调度问题中自动建模约束并生成代码的潜在应用。静态调度问题由优化专家建模和编码,但这些模型可能很快过时,需要微调以反映调度规则的变化。我们提出了一种基于检索增强生成(RAG)的LLM模型,用于自动化实现动态调度的约束处理,无需寻求优化建模专家的帮助。我们的框架旨在最大程度地减少数学建模和计算工作负担,使最终用户能够通过自然语言约束描述快速获得接近原调度的新调度。
大模型日报(5月14日 学术篇)http://arxiv.org/abs/2405.06697v1
06

Word2World: 通过大语言模型生成故事和世界

大语言模型(LLMs)已在多个学科中证明了其价值。LLMs 在程序内容生成(PCG)中也表现出了巨大潜力,但直接通过预训练的LLM生成关卡仍具挑战性。本文介绍了Word2World,这是一个系统,使LLMs能够通过故事进行程序设计可玩游戏,无需任何特定任务的微调。Word2World利用LLMs创建多样内容和提取信息的能力。结合这些能力,LLMs可以为游戏创造故事,设计叙事,并将tiles放置在适当位置以创建连续的世界和可玩游戏。我们用不同LLMs测试Word2World,并进行了彻底的割除研究以验证每一步。我们在https://github.com/umair-nasir14/Word2World开源代码。
大模型日报(5月14日 学术篇)http://arxiv.org/abs/2405.06686v1
07

开放SQL框架:在开源大语言模型上增强文本到SQL的能力

尽管大型语言模型(LLMs)在文本转SQL任务中取得了成功,但开源LLMs在上下文理解和响应连贯性方面面临挑战。为了解决这些问题,我们提出了ours,这是一种专门为文本转SQL与开源LLMs定制的系统方法论。我们的贡献包括全面评估开源LLMs在文本转SQL任务中的性能,openprompt策略用于有效的问题表示,以及监督微调的新策略。我们探讨了链式推理在逐步推断中的好处,并提出了用于增强少样本学习的openexample方法。此外,我们引入了高效利用token的技术,如textbf{可变长度开放DB模式},textbf{目标列截断}和textbf{示例列截断},解决了大规模数据库面临的挑战。我们的发现强调了进一步研究监督微调对上下文学习能力的影响的必要性。值得注意的是,我们的方法将Llama2-7B的性能从2.54%提高到了41.04%,将Code Llama-7B的性能从14.54%提高到了48.24%在BIRD-Dev数据集上。值得注意的是,Code Llama-7B的性能在BIRD-Dev数据集上超过了GPT-4(46.35%)。
大模型日报(5月14日 学术篇)http://arxiv.org/abs/2405.06674v1
08

训练更快,表现更好:超参数模型中的模块化自适应训练

尽管过参数化模型在深度学习社区中很常见,但为了进行适当的训练,这些模型需要高昂的计算成本。本文研究了过参数化模型的细粒度、模块级的学习动态,以实现更高效和富有成效的训练策略。实证证据表明,当缩减网络模块,如自注意力模型中的头部时,我们可以观察到与每个模块的可训练性相关的不同学习模式。为了描述这种模块级学习能力,我们引入了一个名为模块神经切线核(mNTK)的新概念,并展示了模块学习质量与其mNTK的主特征值λmax紧密相关。大的λmax表示模块以更好的收敛性学习特征,而那些微小的特征可能会对泛化产生负面影响。受到这一发现的启发,我们提出了一种名为模块自适应训练(MAT)的新的训练策略,以选择性地更新那些超过动态阈值的模块的λmax,使模型集中于学习共同特征并忽略不一致的特征。与大多数现有的训练方案不同,MAT通过其部分更新策略可以显著节省计算量,并且可以进一步提高性能。实验表明,MAT几乎将模型训练的计算成本减少了一半,并且胜过了基线的准确性。
大模型日报(5月14日 学术篇)http://arxiv.org/abs/2405.07527v1
HuggingFace&Github

01

GPT Table

这个库的研究者提出了”GPT-Table”方法,将各类金融文件(如企业财务报告、发票、收据等)转换为XML格式并表示为元组,以此帮助LLMs更准确地理解和处理表格数据。研究给出了基于复杂表格结构的税务发票的分析示例,展示了这种方法在自动处理金融文件数据方面的潜力和优势。
大模型日报(5月14日 学术篇)https://github.com/JSJeong-me/GPT-Table
02

AgentScope

AgentScope 是一个创新的多智能体开发平台,旨在让开发者更简单地构建基于大语言模型的多智能体应用。它提供了高易用性,通过丰富的组件、全面的文档以及可视化编程和智能助手等功能,帮助开发者快速上手。同时,AgentScope 也具有高鲁棒性,支持自定义的容错控制和重试机制,提高应用的稳定性。此外,它还支持以中心化的方式构建分布式的多智能体应用。AgentScope 拥有丰富的模型支持,包括对话、嵌入、图像合成、多模态等功能的 ModelWrapper,开发者可快速接入和利用各种AI模型。
大模型日报(5月14日 学术篇)https://github.com/modelscope/agentscope
03

Lumina-T2X

Lumina-T2X是一个由Alpha-VLLM团队开发的强大的多模态生成模型,可以将文本转换为图像、视频、3D模型、音频和音乐等多种输出形式。它的核心是Flow-based Large Diffusion Transformer (Flag-DiT)架构,支持高达70亿参数的扩散模型,能够处理长序列输入。
大模型日报(5月14日 学术篇)https://github.com/Alpha-VLLM/Lumina-T2X
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15441.html

Like (0)
Previous 2024-05-14 14:44
Next 2024-05-15 19:08

相关推荐

  • ChatGPT教你九步高效完成PhD之旅!

    PhD学位是每个研究者追求的终极目标,但是对于许多人来说,完成这个学位需要花费数年甚至更长的时间。 在这样一个漫长而艰难的旅程中,许多人可能会遇到挫折和困难,甚至可能会失去前进的动…

    2023-03-20
    188
  • 导师分享,如何与导师沟通成效最大?

    近日因为写文章的事情,和博导沟通的比较多,或许因为在交流中还存在一些问题,导师当天就果断分享(教育)了几点,其中,我想我应该触犯了几点。 建议毕竟是从导师的角度出发,所以对学生的要…

    2022-07-22
    195
  • ChatGPT自动生成代码不靠谱,是真的吗?

    ChatGPT自动生成代码快得飞起,然而,这篇文献说它生成的代码漏洞百出?是真的吗?是AI的缺陷,还是我们不懂AI? 来看这篇文章~ 学术界对大型语言模型如ChatGPT始终保持着…

    2023-04-23
    231
  • 大模型日报(5月10日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-10
    140
  • 大模型日报(8月15日 学术篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-15
    251
  • 大模型日报(7月2日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-02
    213
  • #知识分享 高清图备忘单,神经网络,机器学习,深度学习,大数据

    ​ 不同于该领域内其他资料中所叙述的各种复杂逻辑和抽象的数学公式,该资料以图文并茂的方式,将抽象的概念可视化,便于学习者学习和理解,其内容基本涵盖了机器学习,深度学习和数据科学的所…

    2022-07-29
    229
  • 大模型日报(6月14日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-14
    135
  • 大模型日报(7月23日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-23
    239
  • ChatGPT瞬间生成参考文献?请注意核实!

    ChatGPT瞬间生成参考文献?请注意核实! 今日看到一篇文章,是关于使用ChatGPT做学术研究时所必须要关注的一些注意点。原文来自于哈佛大学的一名生物信息专业的博士生,同时他的…

    2023-04-06
    563