大模型日报(5月27日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月27日 学术篇)

论文

01

iVideoGPT:交互式视频GPT:可扩展的世界模型

世界模型赋予基于模型的智能体在想象环境中交互探索、推理和规划,用于真实决策制定。本研究介绍了交互VideoGPT(iVideoGPT),这是一个可扩展的自回归Transformer框架,将多模态信号——视觉观察、行动和奖励——整合到一个token序列中,通过下一个token预测促进智能体的交互体验。iVideoGPT采用了一种新颖的压缩token化技术,有效离散化高维度视觉观察。借助其可扩展的架构,我们能够在数百万人类和机器人操纵轨迹上进行预训练,建立一个多功能的基础,可适应于各种下游任务作为交互式世界模型。这些任务包括行动条件视频预测、视觉规划和基于模型的强化学习,iVideoGPT在实验中表现出与最先进方法竞争的性能。我们的研究推动了交互式泛化世界模型的发展,弥补了生成视频模型与实际基于模型的强化学习应用之间的差距。
大模型日报(5月27日 学术篇)http://arxiv.org/abs/2405.15223v1
02

自监督学习的自动数据整合:基于聚类的方法

自我监督特征是现代机器学习系统的基石。它们通常在需要大量人力的数据集上进行预训练。本文考虑了自我监督预训练高质量数据集的自动筛选问题,提出了一种基于聚类的方法。该方法通过在大型且多样化的数据存储库上连续和分层应用 k-means 算法,得到在数据概念间均匀分布的聚类,然后从这些聚类中进行分层均衡抽样。实验结果表明,我们的自动筛选数据集训练出的特征优于未经筛选数据集训练出的特征,在手动筛选数据集上表现相当或更好。
大模型日报(5月27日 学术篇)http://arxiv.org/abs/2405.15613v1
03

理解Transformer模型作为隐式推理者:通往泛化边缘的机制之旅

摘要:我们研究了Transformer是否可以学习隐式推理参数化知识,这是即使最有能力的语言模型也很难掌握的技能。我们专注于代表性的推理类型,包括组合和比较,我们一直发现,Transformer只有通过深入训练才能学会隐式推理,而不是仅靠过拟合。推理类型的泛化水平也因推理类型而异:当面对超范围的例子时,Transformer在组合方面未能系统地泛化,但在比较方面成功。我们在整个训练过程中深入研究模型内部,进行分析实验揭示:1)隐式学习背后的机制,如泛化电路的形成及其与泛化和记忆电路相对效率的关系,2)系统性与泛化电路配置之间的联系。我们的研究成果指导数据和训练设置,更好地促进隐式推理,并建议对Transformer架构进行潜在改进,如鼓励跨层知识共享。此外,我们证明,针对一个具有大搜索空间的具有挑战性推理任务,基于非参数化记忆的GPT-4-Turbo和Gemini-1.5-Pro无论是提示样式还是检索增强都效果不佳,而完全隐式学习的Transformer可以实现接近完美的准确性,展示了参数化记忆在复杂推理中的强大能力。
大模型日报(5月27日 学术篇)http://arxiv.org/abs/2405.15071v1
04

具有可控内存的管道并行化

管道并行性已被广泛探讨,但大多数现有的调度缺乏系统方法。本文提出一种将管道调度分解为重复构建块的框架,并展示构建块的寿命决定了管道调度的峰值激活内存。在观察的指导下,我们发现几乎所有现有的管道调度在内存利用效率方面存在问题。为了解决这个问题,我们引入了一系列内存高效的可控激活内存构建块,可以将峰值激活内存减少到1F1B的一半,不牺牲效率,甚至可以实现可比较吞吐量的1/3。我们还可以实现几乎零管道泡沫,同时保持与1F1B相同的激活内存。我们的评估表明,在纯管道并行设置中,我们的方法在吞吐量方面超过1F1B 7%至55%。在实际场景中通过混合并行超参数的网格搜索时,我们提出的方法相比1F1B基准大型语言模型可以提高16%的吞吐量。
大模型日报(5月27日 学术篇)http://arxiv.org/abs/2405.15362v1
05

长LMM对长文本任务是否必不可少?

长-LLMs的学习和部署仍然是一个具有挑战性的问题,尽管最近取得了进展。在这项工作中,我们认为长-LLMs并不是解决长上下文任务的必要条件,因为常见的长上下文任务是可以通过仅使用长上下文任务输入中的短上下文来解决的。基于这一论点,我们提出了一个名为LC-Boost (长-上下文增强器) 的框架,这个框架可以使短-LLM以一种引导的方式来解决长上下文任务。在我们的框架中,短-LLM被提示进行两个关键决策:1) 如何访问输入中合适的上下文部分,2) 如何有效利用访问到的上下文。通过根据提出的任务自适应地访问和利用上下文,LC-Boost 可以作为一个通用框架来处理多样化的长上下文处理问题。我们全面评估了来自流行的长上下文基准测试的不同类型任务,LC-Boost 能够在更小的资源消耗下实现大幅度的性能提升。
大模型日报(5月27日 学术篇)http://arxiv.org/abs/2405.15318v1
06

Transformer 堆叠:高效 LLM 预训练模型增长探究

摘要:大语言模型由于规模庞大而在预训练时计算成本高昂。模型增长作为一种潜在的方法,通过利用较小的模型加速训练更大的模型,正在涌现。然而,在有效的大语言模型预训练中,这些模型增长方法的可行性仍未充分探讨。本工作确定了三个关键障碍:(O1)缺乏全面评估,(O2)未经测试的可扩展性和(O3)缺乏经验指导。为了解决O1,我们将现有方法总结为四个基本增长操作符,并在标准化的大语言模型预训练设置中系统评估它们。我们的研究发现,一种深度堆叠操作符,称为G_stack,在训练中表现出明显加速,导致损失减少,并在八个标准自然语言处理基准中的整体表现比强基线模型有所提高。受这些有希望的结果鼓舞,我们进行了深入的实验,深入研究了G_stack,以解决O2和O3。对于O2(未经测试的可扩展性),我们的研究显示G_stack具有可扩展性,并始终表现良好,可通过增长后的实验达到7B大语言模型,并使用750B token进行预训练。例如,与使用300B token传统训练的7B模型相比,我们的G_stack模型以194B token收敛于相同的损失,速度提高了54.6%。我们进一步通过形式化指导原则来解决O3(缺乏经验指导),确定G_stack的增长时机和增长因子,使其在一般大语言模型预训练中实用化。我们还提供对G_stack的深入讨论和全面消融研究。我们的代码和预训练模型可在 https://llm-stacking.github.io/ 上获取。
大模型日报(5月27日 学术篇)http://arxiv.org/abs/2405.15319v1
07

将Transformer中的上下文学习与人类情节记忆联系起来

理解人工智能系统与生物智能系统之间的联系可以揭示普遍智能背后的基本原理。虽然许多人工智能模型都有神经科学对应物,但Transformer模型和自注意机制中缺乏此类联系。在这里,我们研究了注意头和人类情节记忆之间的关系。我们专注于归纳头,它们有助于Transformer大型语言模型(LLMs)的上下文学习能力。我们证明了归纳头在行为上、功能上和机械上与人类情节记忆的上下文维护与检索(CMR)模型类似。我们对预先在大量文本数据上训练的LLMs进行的分析显示,类似CMR的头部经常涌现在中间模型层中,它们的行为在质量上反映了人类的记忆偏见。我们的发现揭示了LLMs和人类记忆的计算机制之间的平行,为两个研究领域提供了宝贵的见解。
大模型日报(5月27日 学术篇)http://arxiv.org/abs/2405.14992v1
HuggingFace&Github

01

Dataherald

Dataherald 是一个基于自然语言处理的企业级问答引擎,允许用户直接从数据库中获取洞见,并在 SaaS 应用中集成问答功能,甚至可以为 ChatGPT 创建专属插件。它提供了四个核心组件,包括自然语言到 SQL 的转换引擎、具有身份验证等企业级功能的 API 层、可视化管理控制台,以及与Slack集成的聊天机器人。
大模型日报(5月27日 学术篇)https://github.com/Dataherald/dataherald
02

LaVague

LaVague 是一个开源的大型操作模型框架,用于开发 AI Web 代理。它包含两个核心组件:世界模型和行动引擎。世界模型根据目标和当前状态生成实现目标所需的指令,行动引擎则将这些指令转化为可执行的代码,如 Selenium 或 Playwright。LaVague 可以执行从简单到复杂的 Web 自动化任务,并鼓励社区参与贡献。此外,LaVague 还默认收集一些用户使用数据,以帮助构建更好的大型操作模型和 Web 代理。
大模型日报(5月27日 学术篇)https://github.com/lavague-ai/LaVague
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15098.html

Like (0)
Previous 2024-05-27 18:05
Next 2024-05-28 18:26

相关推荐

  • 大模型日报(7月29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-29
    233
  • ChatGPT瞬间生成参考文献?请注意核实!

    ChatGPT瞬间生成参考文献?请注意核实! 今日看到一篇文章,是关于使用ChatGPT做学术研究时所必须要关注的一些注意点。原文来自于哈佛大学的一名生物信息专业的博士生,同时他的…

    2023-04-06
    563
  • 大模型日报(8月9日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-09
    198
  • #文章写作 作为新手该如何克服Paper写作的焦虑感?这十点你要知道

    这两天和导师沟通文章写作时遇到的一些问题,一是文章没有达到预期效果,二是时间也超过了原计划,再加上导师忙碌,无法时刻触达并解决具体的问题,焦虑感顿时萌生。 于是与另一位同行师姐沟通…

    2022-07-28
    102
  • 大模型日报(6月28日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-28
    158
  • 让AI助手探索你的研究领域,只需七步!

    让AI助手探索你的研究领域,只需七步! 刚好在咖啡店拿着手机和AI助手侃侃而谈了一把,顺便对某个研究领域从外围往内核理一理思路,起初觉得AI的回答很体系化,有种滴水不漏的感觉,仔细…

    2023-06-27
    188
  • 关于ChatGPT写论文, 近期私信回复都在这~

    近期的很多朋友私信给我各类问题,在下无法一一回复,还望见谅~ 考虑到一般也就晚上有整块的时间能够处理,因此,就在这里统一答复大家,希望对大家能有所帮助! 1. 林同学等 关于Cha…

    2023-04-18
    191
  • 大模型日报(5月11~12日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-12
    143
  • 数据预处理 | 你终于可以和Pandas说人话了,因为Pandas AI来啦!

    数据预处理Pandas绝对是当仁不让的王者,而Pandas加持了AI之后,又会有多好用呢?这只熊猫武装了AI之后,又有多能打呢?来来来,看这一篇就够了!先说实际效果~ 以前,你要用…

    2023-06-30
    139
  • 大模型日报(7月31日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-31
    198