大模型日报(4月11日 学术篇)

特别活动!

大模型日报(4月11日 学术篇)

欢迎观看大模型日报

大模型日报(4月11日 学术篇)

论文

01

数据过滤的扩展定律 — 数据构建不可能与计算无关

视觉语言模型(VLMs)经过数千小时的GPU训练,使用精心策划的网络数据集。最近,数据整理受到关注,许多研究开发了保留“高质量”子集的策略来保留‘原始’抓取的数据。例如,LAION公共数据集仅保留了总爬取数据的10%。然而,这些策略通常不考虑训练所需的计算资源。本文首先证明,在不考虑训练计算的情况下做过滤决策通常不是最佳选择:有限的高质量数据在被重复使用时迅速失去效用,最终需要包含‘未见过’但‘较低质量’的数据。为了解决质量和数量之间的权衡问题,我们引入了考虑网页数据非均匀性的神经缩放定律,这是现有文献中忽略的一个角度。我们的缩放定律(i)表征了各种质量子集的‘效用’之间的差异;(ii)考虑了数据点在第‘n’次重复时效用如何减少;以及(iii)制定了各种数据池的相互作用,使得能够估计模型在多个数据池组合上的性能,而无需同时在它们上面进行训练。我们的核心信息是,数据整理不应该忽视模型将被训练的总计算资源。我们的缩放定律允许我们精心策划最佳可能的数据池,以在不同计算预算下实现在Datacomp上的最佳性能,为数据整理开辟出一个帕累托边界。代码可在https://github.com/locuslab/scaling_laws_data_filtering获取。
大模型日报(4月11日 学术篇)http://arxiv.org/abs/2404.07177v1
02

诱导头电路取得成功需要什么?在上下文学习电路及其形成的机制研究

在Transformer模型中,背景学习是一种强大的涌现能力。在机械解释性方面的先前工作已经确定了一个可能对背景学习至关重要的电路元素——诱导头(IH),它执行匹配和复制操作。在自然语言数据上训练大型Transformer模型时,IH会在损失的显著阶段变化时出现。尽管有关IH的强有力证据以及与阶段变化的有趣巧合,对IH的多样性和涌现动态知之甚少。为什么会有多个IH?它们之间如何相互依赖?IH为什么突然出现?什么是使它们涌现的子电路?通过在合成数据上训练,我们研究了IH在受控环境中的涌现动态。在这个过程中,我们开发并分享了一个受光遗传学启发的新型因果框架,用于修改整个训练过程中的激活。利用这一框架,我们详细说明了IH的多样且可累加的性质。通过在整个训练过程中夹紧激活的子集,我们确定了三个相互作用以驱动IH形成的基础子电路,导致阶段变化。此外,这些子电路揭示了涌现特性的数据相关属性,如阶段变化的时机,已经展现了对于IH需要“正确进行”的更深入理解的潜力。
大模型日报(4月11日 学术篇)http://arxiv.org/abs/2404.07129v1
03

不落下任何上下文:高效的无限上下文Transformer与无限注意力

本研究介绍了一种有效方法,可以将基于Transformer的大语言模型(LLMs)扩展到具有有限内存和计算的无限长输入。我们提出方法的关键组件是一种名为无限关注(Infini-attention)的新注意力技术。无限关注将一个压缩式记忆体纳入到传统注意力机制中,并在单个Transformer块中构建了掩码局部关注和长期线性关注机制。我们在长上下文语言建模基准上,1M长度密码上下文块检索和500K长度书籍摘要任务中,分别使用1B和8B的LLMs展示了我们方法的有效性。我们的方法引入了最小的有限内存参数,并实现了LLMs的快速流式推理。
大模型日报(4月11日 学术篇)http://arxiv.org/abs/2404.07143v1
04
4

探索概念深度:大语言模型如何在不同层面获得知识?

本文研究了大语言模型中不同层次学习不同概念的现象,即更困难的概念在更深层次上完全被习得。我们通过抽象程度定义了概念的困难程度,并粗略地按事实、情感和推理进行分类。每个类别包含一系列任务,从简单到复杂排列。我们利用探测技术从模型的不同层中提取表示,并将其应用于分类任务。我们的发现表明,模型倾向于有效地分类较简单的任务,表明这些概念是在更浅的层次中学习的。相反,更复杂的任务可能只在更深层次上才能分辨,如果有的话。本文探讨了这些发现对我们理解模型学习过程和内部表示的影响。我们的实现可在 https://github.com/Luckfort/CD 找到。
大模型日报(4月11日 学术篇)http://arxiv.org/abs/2404.07066v1
05

思维雕刻:使用中间修订和搜索进行推理

我们提出了THOUGHTSCULPT,一种通用的推理和搜索方法,适用于可以分解为组件的任务。THOUGHTSCULPT使用蒙特卡洛树搜索(MCTS)来探索潜在解决方案的搜索树,一次构建一个动作,并根据任何特定于领域的启发式进行评估,实际上通常只是一个LLM评估器。关键是,我们的动作空间包括修订动作:THOUGHTSCULPT可能选择修改其先前输出的部分,而不是继续构建其余的输出。实验证明,THOUGHTSCULPT在三项具有挑战性的任务中表现优于最先进的推理方法:故事大纲改善(高达+30%的趣味性),迷你填字游戏求解(高达+16%的单词成功率)和受限生成(高达+10%的概念覆盖率)。
大模型日报(4月11日 学术篇)http://arxiv.org/abs/2404.05966v1
06

麻婆豆腐中包含咖啡吗:探索大语言模型中的食品文化知识

最近的研究强调了大语言模型(LLMs)中存在的文化偏见,但往往缺乏一个全面剖析这些现象的强大方法论。我们的工作旨在通过深入探讨食品领域来弥补这一差距,这是一个普遍相关但文化多样的人类生活方面。我们引入了FmLAMA,一个以食品相关文化事实和食品实践变化为中心的多语言数据集。我们分析了不同架构和配置下的LLMs,在单语和多语环境下评估它们的性能。通过利用六种不同语言中的模板,我们研究LLMs如何与语言特定和文化知识互动。我们的研究发现:(1)LLMs表现出对美国食品知识的明显偏好;(2)纳入相关文化背景显著提高了LLMs访问文化知识的能力;(3)LLMs捕捉文化细微差别的有效性很大程度上取决于探究语言、具体模型架构和所讨论的文化背景之间的相互作用。这项研究突显了将文化理解融入LLMs的复杂性,并强调了通过文化多样性数据集来减轻偏见、增强模型在不同文化领域中的性能的重要性。
大模型日报(4月11日 学术篇)http://arxiv.org/abs/2404.06833v1
07

简化能提升事实一致性自动评估效果

评估自动生成文本与源语境的事实一致性对于开发可靠的自然语言生成应用程序至关重要。最近的文献提出了使用统一对齐模型的AlignScore来评估事实一致性,在许多基准任务上远远超过以往的方法。本文对AlignScore中使用的数据集进行了详细研究,并发现一个意外的发现:利用较少的数据点实际上可以提高性能。我们处理原始AlignScore训练数据集以去除噪声,增加具有鲁棒性的样本,并利用该数据的10%子集训练了一个改进的事实一致性评估模型,我们称之为LIM-RA(Robust AlignScore的小即是多)。LIM-RA展示了优越的性能,持续优于AlignScore和其他强基线模型,如ChatGPT,跨越四个基准测试(两个使用传统自然语言生成数据集,两个关注大型语言模型输出)。我们的实验表明,LIM-RA在33个测试数据集中的24个上获得了最高分,同时在其他数据集上保持竞争力,建立了新的最优基准。
大模型日报(4月11日 学术篇)http://arxiv.org/abs/2404.06579v1

HuggingFace&Github

01

morphic

Morphic 是一个开源的项目,旨在创建一个能够让用户轻松访问并收获所需信息的 AI 搜索引擎。
大模型日报(4月11日 学术篇)
大模型日报(4月11日 学术篇)https://github.com/miurla/morphic
02

Codefuse-ModelCache

Codefuse-ModelCache 是一个开源的大模型语义缓存系统,通过缓存已生成的模型结果,降低类似请求的响应时间,提升用户体验。该项目从服务优化角度出发,引入缓存机制,在资源有限和对实时性要求较高的场景下,帮助企业和研究机构降低推理部署成本、提升模型性能和效率、提供规模化大模型服务。
大模型日报(4月11日 学术篇)https://github.com/codefuse-ai/CodeFuse-ModelCache?tab=readme-ov-file
03

Easy-Edit

EasyEdit 是一个基于 PyTorch 构建的 Python 包,用于编辑大型语言模型(LLM),如 GPT-J、Llama、GPT-NEO、GPT2(T5 支持从 1B 到 65B 的模型),在不对其他输入的性能产生负面影响的情况下有效地改变行为LLMs。
大模型日报(4月11日 学术篇)https://github.com/zjunlp/EasyEdit

大模型日报(4月11日 学术篇)

大模型日报16

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/16212.html

Like (0)
Previous 2024-04-11 16:44
Next 2024-04-11 23:32

相关推荐

  • 赶紧拿下写论文必备ChatGPT Prompts拆分神器!

    文章太长,ChatGPT没法阅读? 拆分太累,写论文效率大打折扣? 使用它可以突破限制:轻松将大文本块发送到 ChatGPT! 你有没有收到过来自 ChatGPT 的Error,说…

    2023-05-08
    141
  • 大模型日报(7月16日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-16
    233
  • 大模型日报(6月24日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-24
    190
  • 88岁MIT教授的最后一堂线性代数课,真的不可错过!

    一想到线性代数,立马不自信,头皮就发麻? 那是因为你没有听到来自真正的大师所提供的最好的课程! 要知道没有线性代数,人工智能从何谈起? 在线性代数上,人们常常会这样说:「我以前总觉…

    2023-05-17
    193
  • 导师分享,如何与导师沟通成效最大?

    近日因为写文章的事情,和博导沟通的比较多,或许因为在交流中还存在一些问题,导师当天就果断分享(教育)了几点,其中,我想我应该触犯了几点。 建议毕竟是从导师的角度出发,所以对学生的要…

    2022-07-22
    195
  • 大模型日报(6月13日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-13
    121
  • 大模型日报(7月24日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-24
    259
  • 大模型日报(6月5日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-06-05
    146
  • 忍不住想玩一下imagica,5分钟制作APP!

    真的很疯狂! 据说使用imagica,只要5分钟就可以完成并上架一个APP! 也就是说你只要会语言,能说明白要做的APP,imagica就能把代码、逻辑和界面完成,并且上架至应用商…

    2023-04-12
    171
  • 大模型日报(7月31日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-31
    198