大模型日报(4月25日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(4月25日 学术篇)

论文

01

检索头机制解释长上下文真实性

尽管长上下文语言模型取得了近期的进展,但基于Transformer的模型如何展示从长上下文中任意位置检索相关信息的能力仍然难以捉摸。本文旨在解决这个问题。我们对各种模型进行系统调查发现,一种特殊类型的注意头在检索信息中起着主要作用,我们称之为检索头。我们发现了检索头的有趣特性:(1)通用性:拥有长上下文能力的所有研究模型都有一组检索头;(2)稀疏性:只有一小部分(不到5%)的注意头是检索头;(3)固有性:在使用短上下文预训练的模型中已经存在检索头。在通过持续预训练扩展上下文长度时,执行信息检索的仍是同一组头。(4)动态激活:以Llama-2 7B为例,12个检索头总是关注所需信息,无论上下文如何改变。其余的检索头在不同上下文中激活。(5)因果关系:完全修剪检索头会导致无法检索相关信息并导致幻觉,而修剪随机非检索头不会影响模型的检索能力。我们进一步表明,检索头强烈影响思维链推理,其中模型需要经常查看问题和先前生成的上下文。相反,模型直接使用固有知识生成答案的任务受到masking检索头的影响较小。这些观察共同解释了模型的哪个内部部分从输入token中寻求信息。我们相信我们的见解将促进未来研究,减少幻觉,改善推理能力和压缩KV缓存。
大模型日报(4月25日 学术篇)http://arxiv.org/abs/2404.15574v1
02

Cantor:激发MLLM的多模态思维链

摘要:随着大语言模型(LLMs)与思维链(CoT)方法的结合,视觉推理问题通常被分解为可管理的子任务,并通过各种外部工具逐个解决。然而,这种范式面临着由于视觉信息不足和低级感知工具的限制而导致决策中的“确定幻觉”的挑战,这些工具无法提供综合推理所需的抽象总结。我们认为,融合视觉上下文获取和逻辑推理对于解决视觉推理任务至关重要。本文深入探讨了多模态CoT领域,利用多模态大语言模型(MLLMs)及其认知能力解决复杂的视觉推理任务。为此,我们提出了一种创新的多模态CoT框架,称为Cantor,具有感知决策架构。Cantor首先作为决策生成器,并整合视觉输入来分析图像和问题,确保与实际情境更紧密地对齐。此外,Cantor利用MLLM的先进认知功能,作为多面手专家推导更高级别信息,增强CoT生成过程。我们的广泛实验证明了所提框架的有效性,在两个复杂的视觉推理数据集中显示了多模态CoT性能的显著改进,无需微调或基本真理依据。项目页面:https://ggg0919.github.io/cantor/ 。
大模型日报(4月25日 学术篇)http://arxiv.org/abs/2404.16033v1
03

从复杂到简单:增强大语言模型多约束复杂指令跟随能力

摘要:对于大语言模型(LLMs)来说,遵循需求复杂的说明(即复杂指示遵循)是至关重要的。然而,如何增强LLMs遵循具有多个约束的复杂说明的能力仍未得到深入研究。为了填补这一空白,我们首先研究了训练数据对增强复杂约束遵循能力的有效性。我们发现,训练LLMs时包含多个约束的说明可以增强它们对复杂说明的理解,尤其是那些较低复杂性水平的说明。这种改进甚至可以泛化到领域外约束的组合。此外,我们进一步提出了如何获取和利用有效训练数据的方法。最后,我们进行了大量实验,证明了我们的方法在整体性能、训练效率和四种设置下的泛化能力方面的有效性。
大模型日报(4月25日 学术篇)http://arxiv.org/abs/2404.15846v1
04
4

大语言模型逻辑推理能力系统评估

摘要:最近开发的大型语言模型(LLMs)在各种语言理解任务中表现出色。但是,它们真的能够在自然语言中“推理”吗?这个问题一直受到重视,许多推理技能(如常识、数值和定性)已经得到研究。然而,“逻辑推理”这一关键技能仍未被充分探讨。我们对LLMs在涵盖命题、一阶和非单调逻辑的25种不同推理模式上的逻辑推理能力进行了全面评估。为了进行系统评估,我们引入了LogicBench,这是一个关注单一推理规则使用的自然语言问答数据集。我们使用GPT-4、ChatGPT、Gemini、Llama-2和Mistral等多个LLMs进行了详细分析。实验结果显示,现有的LLMs在LogicBench上表现不佳,特别是在涉及复杂推理和否定的情况下。此外,它们有时会忽略推理所需的上下文信息,导致无法得出正确结论。我们相信我们的工作和发现将促进未来对LLMs逻辑推理能力的评估和增强的研究。数据和代码可在https://github.com/Mihir3009/LogicBench 上获取。
大模型日报(4月25日 学术篇)http://arxiv.org/abs/2404.15522v1
05

BattleAgent:历史战斗的多模态动态模拟以辅助历史分析

本论文介绍了BattleAgent,一个将大型视觉语言模型和多智能体系统相结合的仿真系统。该系统旨在模拟多个智能体之间以及智能体与环境之间的复杂动态交互,包括领导者的决策过程和普通参与者(如士兵)的观点。通过展示智能体的当前能力,包括智能体与景观之间的细粒度多模态交互,以满足特定情景需求,比如侦察和挖掘壕沟等各种与战争相关的活动。BattleAgent的技术基础为历史战役创造了详细而沉浸式的环境,使个体智能体能够参与、观察并动态应对不断发展的战斗场景。该方法论有潜力深入我们对历史事件的理解,特别是通过个体账户。这种举措还可以帮助历史研究,因为传统历史叙事往往缺乏记录,并优先考虑决策者的观点,忽视了普通人的经验。BattleAgent展示了人工智能在重要社会事件中复苏人类因素的潜力,从而促进更加细致的集体理解并推动人类社会的不断进步。
大模型日报(4月25日 学术篇)http://arxiv.org/abs/2404.15532v1
06

一起来逐点思考:Transformer语言模型中的隐藏计算

摘要:大语言模型通过链式话语回应提高了综合性能,但目前尚不清楚这些性能提升在多大程度上归因于类似人类的任务分解,还是仅仅是更多token带来的更大计算量。我们展示了Transformer模型可以使用无意义的填充token(例如,’……’)来代替链式思维,解决了两个难解的算法任务,而这是在没有中间token回应时无法解决的。然而,我们在实证中发现,学习使用填充token是困难的,需要特定的密集督导才能收敛。我们还在理论上描述了哪类问题需要填充token以及一阶公式的量词深度。对于满足这种描述的问题,链式思维token不必提供有关多token计算中的中间计算步骤的信息。总之,我们的结果表明,额外的token可以提供独立于token选择的计算优势。中间token可以作为填充token带来担忧,大型语言模型可能进行无法审计的、与观察到的链式思维token越来越脱节的隐藏计算。
大模型日报(4月25日 学术篇)http://arxiv.org/abs/2404.15758v1

HuggingFace&Github

01

ExecuTorch

ExecuTorch 是一个用于在移动设备、嵌入式设备和边缘设备上实现端到端推理功能的解决方案。它是PyTorch Edge生态系统的一部分,可以高效地部署PyTorch模型到边缘设备。ExecuTorch具有便携性、高生产力和优越性能等特点。此外,它还提供了全面的技术概述和分步教程。重要提示:这是一个预览版本,仅应用于测试和评估目的。
https://github.com/pytorch/executorch
02

GitHub 排名

基于项目收到的星星数量,这个库罗列了 GitHub 上最受欢迎的 AI 项目列表,每日自动更新。

https://github.com/yuxiaopeng/Github-Ranking-AI

03

Neural Speed

Neural Speed 旨在通过由英特尔神经压缩器提供支持的先进低位量化技术,支持在英特尔平台上对 LLMs 进行高效推理。该库具有高度优化的低精度内核,支持在 CPU 上跨套接节点的张量并行性,并支持多种英特尔处理器。它支持几乎所有来自 Hugging Face 的 PyTorch 格式和 GGUF 格式的大型语言模型,以及 Modelscope 的 PyTorch 模型。
https://github.com/intel/neural-speed

大模型日报(4月25日 学术篇)

大模型日报16

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/15812.html

Like (0)
Previous 2024-04-25 18:53
Next 2024-04-25 22:18

相关推荐

  • 大模型日报(5月22日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-22
    197
  • 一眼看透机器学习中的欠拟合(Underfitting)和过拟合(Overfitting)

    第一篇文章没有漂亮的开场白,想到哪就写哪,只因发现一个特别有趣的东西而已。 众所周知,无论是学术界还是产业界,人工智能乃当下大热,而机器学习作为其中的重要分支,亦是热中之热,重中之…

    2022-07-12
    187
  • 大模型日报(6月20日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-06-20
    203
  • 大模型日报(5月27日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-27
    148
  • 读博之路 | 找博导 只需三步,快速找到自己中意的博导!

    套磁是申请博士的必经之路,那么套磁之前,找到符合自己研究方向的导师至关重要,不然,你套磁信写给谁呢~ Photograph: Hannah Slack 由于最近受一位小学妹之托(实…

    2023-10-31
    215
  • 完整部署Slack+Claude,看这一篇就够了!ChatGPT真正的对手来了~

    ChatGPT碰到真正的对手了?! 没错,就是Claude!它也是OpenAI的团队成员开发的一款AI产品。 这句话是Claude对自己相比于ChatGPT的评价,完全是精准打击:…

    2023-04-16
    213
  • 大模型日报(7月20~21日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-21
    200
  • 导师交流心得 关于Introduction

    坐在咖啡馆,做个小笔记 第一篇打算投稿的文章写得七七八八,发给导师之后,以为能够得到详实具体的反馈建议,结果老板说有点“为难他”,于是我晚上主动拉了个会议,想一探究竟我干了什么“为…

    2022-07-20
    219
  • 大模型日报(4月26日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-04-26
    124
  • ChatGPT瞬间生成参考文献?请注意核实!

    ChatGPT瞬间生成参考文献?请注意核实! 今日看到一篇文章,是关于使用ChatGPT做学术研究时所必须要关注的一些注意点。原文来自于哈佛大学的一名生物信息专业的博士生,同时他的…

    2023-04-06
    563