大模型日报(6月6日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月6日 学术篇)

论文

01

解缠逻辑:大语言模型推理能力中上下文的作用

本研究旨在系统地解开纯逻辑推理和文本理解之间的关系,通过研究来自各个领域的抽象和上下文化的逻辑问题之间的对比。我们探讨了当基本逻辑结构保持不变时,LLM是否展示了跨越各种领域的真正推理能力。我们关注两个主要问题:(1)在真实场景中,抽象逻辑问题单独能够准确衡量LLM在不受上下文支持的情况下的推理能力吗?(2)在抽象逻辑问题上进行微调是否能够推广到具体化的逻辑问题,反之亦然?为了探讨这些问题,我们专注于标准命题逻辑,特别是命题演绎和推理的情况。我们构建了具体化的数据集,包括4个难度级别的演绎和推理,涵盖了维基百科分类的12个不同类别或领域。我们的实验旨在揭示逻辑推理中上下文的解开方式,以及LLM的真正推理能力和其泛化潜力。代码和数据集可在https://github.com/agiresearch/ContextHub 上找到。
大模型日报(6月6日 学术篇)http://arxiv.org/abs/2406.02787v1
02

智能体链:大语言模型在长上下文任务上的协作

摘要:处理长篇文本的挑战已成为大语言模型(LLMs)的重要问题。目前出现了两种常见策略:1)缩短输入长度,如通过检索增强生成(RAG)检索相关块,2)扩展LLMs的上下文窗口限制。然而,这两种策略都有缺点:输入缩减不能保证覆盖所需信息的部分,而窗口扩展则很难专注于解决任务所需的相关信息。为了缓解这些限制,我们提出了Chain-of-Agents(CoA),这是一个新颖的框架,通过自然语言协作多智能体,实现对长文本任务中各种LLMs的信息聚合和上下文推理。CoA由多个工作智能体组成,它们顺序通信来处理文本的不同部分,然后由一个经理智能体将这些贡献综合成一个连贯的最终输出。CoA通过交替阅读和推理来处理整个输入,并通过为每个智能体分配短上下文来缓解长篇上下文关注问题。我们对CoA在问答、摘要和代码完成等各种长文本任务上进行了全面评估,结果显示其比RAG、全文上下文和多智能体LLMs等强基线模型有显著提高,最高可提高10%。
http://arxiv.org/abs/2406.02818v1
03

你的数据如何激发喜悦?域上采样在训练末期带来的性能提升

摘要:大语言模型(LLMs)的预训练数据集已经增长到由大量CommonCrawl(CC)网络抓取组成的数万亿个token,还包括较小的领域特定数据集。理解这些领域特定数据集对模型能力的影响是昂贵的,因为需要大规模的FLOP训练来揭示对困难和涌现基准的重大变化。在尝试预训练数据的成本不断增加的情况下,如何确定在一般网络抓取多样性和领域特定数据信息密度之间的最佳平衡?在本研究中,我们展示了如何在训练结束时通过增加领域特定数据集的采样率相对于CC来提升对困难基准的性能。这一简单技术让我们能够在MMLU上提高6.90个百分点,在GSM8K上提高8.26个百分点,在HumanEval上提高6.17个百分点,相对于训练1万亿(T)token的7B模型的基础数据混合,从而与经过两倍训练的Llama-2(7B)模型相媲美。我们通过消融域数据增强的持续时间从训练的5%到30%发现,在一般语言建模能力和目标基准之间的权衡中,10%到20%是最佳的。我们还使用域数据增强来描述各种基准的不同数据集的效用,通过在训练的最后阶段移除它们。这个工具开放了在规模上实验不同预训练数据集影响的能力,但与完整预训练运行相比成本降低一个数量级。
大模型日报(6月6日 学术篇)http://arxiv.org/abs/2406.03476v1
04

预训练的大语言模型使用傅立叶特征计算加法

预训练的大语言模型(LLMs)展现出令人印象深刻的数学推理能力,然而它们如何计算基本的算术,如加法,仍不清楚。这篇论文表明,预训练的LLMs使用傅立叶特征来将数字相加–隐藏状态中代表数字的特征集合在频率域中是稀疏的。在模型中,MLP和注意层以互补的方式使用傅立叶特征:MLP层主要使用低频特征近似回答的幅度,而注意层主要使用高频特征执行模块化加法(例如,计算答案是偶数还是奇数)。预训练对这种机制至关重要:从头开始训练的模型仅利用低频特征,导致准确性较低。引入预训练的token嵌入到随机初始化的模型中可以挽救其性能。总的来说,我们的分析表明,适当的预训练表示(例如,傅立叶特征)可以解锁Transformer学习算法任务的精确机制的能力。
大模型日报(6月6日 学术篇)http://arxiv.org/abs/2406.03445v1
05

HelloFresh:LLM在X社区笔记和维基百科编辑流中的真实人类编辑行为上的评估

摘要:基准测试在推动机器学习进展方面至关重要。对LLM在实际任务中能力的更好理解对于安全开发至关重要。设计足够的LLM基准测试具有挑战性:来自实际任务的数据难以收集,静态评估数据的公开可用导致测试数据污染和基准测试过拟合,定期生成新的评估数据是繁琐的,可能导致时间不一致的结果。我们引入了HelloFresh,它基于由内在动机驱动的人类标注者产生的连续实际数据流。它涵盖了来自X社区(以前是Twitter)的最新事件注释和维基百科页面的编辑,减轻了测试数据污染和基准测试过拟合的风险。任何X用户都可以提出X注释来为具有误导性的帖子(以前是推文)添加额外的上下文;如果社区将其分类为有帮助,则会显示在帖子中。类似地,维基百科依赖于基于社区共识,允许用户编辑文章或撤销其他用户做出的编辑。验证X注释是否有帮助或是否应接受维基百科编辑是需要通过查询网络来进行的困难任务。我们进行了回溯测试,对最先进的LLMs进行了补充,并发现HelloFresh产生了一个时间上一致的排名。为了在HelloFresh上进行持续评估,我们在https://tinyurl.com/hello-fresh-LLM上举办一个公开排行榜,并定期更新评估数据。
大模型日报(6月6日 学术篇)http://arxiv.org/abs/2406.03428v1
HuggingFace&Github

01

I4VGen

I4VGen 是一个创新的视频生成框架,它无需繁琐的训练过程,可直接实现文本到视频的转换。它将这一过程分为两个步骤:首先通过生成-选择策略合成与文本提示高度吻合的锚定图像,然后利用一种新颖的噪声不变视频评分蒸馏采样技术,将锚定图像动画化为高质量的视频,最后进行视频再生以进一步提升视频效果。这种分阶段设计大大提高了视频生成的效率和质量。
大模型日报(6月6日 学术篇)
大模型日报(6月6日 学术篇)https://xiefan-guo.github.io/i4vgen/
02

Litgpt

LitGPT 是一个命令行工具,旨在帮助用户轻松地微调、预训练、评估和部署 20 多种最新的 LLM。它提供了针对这些强大开源 LLM 的高度优化训练配方。LitGPT 从头重新实现了所有模型架构和训练配方,以确保 Apache 2.0 许可合规性,并针对每个模型的架构细节进行了优化,以提高性能、降低成本和加快训练速度。LitGPT 支持下载、对话、微调、预训练、评估和部署等各种操作,能够帮助用户快速管理和部署各种大语言模型。
大模型日报(6月6日 学术篇)https://github.com/Lightning-AI/litgpt
03

Qmedia

这是一款专为内容创作者设计的 AI 内容搜索引擎,主要特点包括图文/短视频素材搜索、高效分析和整合内容信息、提供内容来源及信息拆解、基于用户兴趣生成定制化搜索结果,以及支持本地化部署和针对私有数据的离线搜索功能,能够帮助创作者高效获取所需素材,提高内容创作效率。
大模型日报(6月6日 学术篇)https://github.com/QmiAI/Qmedia
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14840.html

Like (0)
Previous 2024-06-06
Next 2024-06-09

相关推荐

  • 新发现 | CSRankings: 世界顶尖计算机科学排名,快速精准找到你的领路人和同行者!

    计算机科学专业哪家强?这个问题泛泛而谈很容易,比如直接看大学综合排名和专业排名,但要具体到细分领域,还是有待商榷的。 一般我们都会想到知名的评级机构,比如QS、USnews、软科等…

    2023-07-17
    119
  • 大模型日报(4月25日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-04-25
    130
  • 大模型日报(5月23日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-23
    205
  • 大模型日报(4月9日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 密集训练,稀疏推断:重新思考混合专家语言模型…

    2024-04-09
    185
  • AI学术 | Research Rabbit 5分钟挖掘研究领域的文献和作者网络

    通过Research Rabbit (RR),只需要5分钟,即可快速挖掘和追踪你研究领域的文献和作者网络,最为关键的是,这个由AI驱动的工具,持续免费! 想象一下不断反复的场景,当…

    2023-07-03
    1.3K
  • 大模型日报(4月16日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 Megalodon:具有无限上下文长度的高效…

    2024-04-16
    190
  • 大模型日报(5月18~19日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-19
    180
  • 大模型日报(6月29~30日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-30
    239
  • 大模型日报(6月20日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-06-20
    203
  • 大模型日报(8月16日 学术篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-16
    205