大模型日报（10月9日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

信号‍

Differential Transformer

Transformer往往会将注意力过度分配到不相关的语境中。在这项工作中引入了 Diff Transformer，它可以在消除噪音的同时放大对相关语境的注意力。具体来说，差分注意力机制将注意力分数计算为两个独立的软最大注意力图之间的差值。减法消除了噪音，促进了稀疏注意力模式的出现。语言建模的实验结果表明，Diff Transformer 在扩大模型规模和训练代币的各种设置中都优于 Transformer。更有趣的是，它在实际应用中具有显著的优势，如长语境建模、关键信息检索、幻觉缓解、语境内学习和减少激活异常值等。Diff Transformer 可以减少无关上下文的干扰，从而在问题解答和文本摘要中减轻幻觉。在上下文学习方面，Diff Transformer 不仅提高了准确性，而且对秩变异（被认为是一个长期存在的鲁棒性问题）具有更强的鲁棒性。研究结果表明，Diff Transformer 是一种高效且前景广阔的架构，可推动大型语言模型的发展。

https://arxiv.org/abs/2410.05258

LongGenBench: Long-context Generation Benchmark

当前的长语境基准主要侧重于基于检索的测试，要求大型语言模型（LLM）在广泛的输入语境中定位特定信息，例如 “大海捞针”（NIAH）基准。长语境生成指的是语言模型生成跨长段落或文档的连贯且语境准确的文本的能力。最近的研究表明，NIAH 和其他基于检索的长语境基准性能很强，但评估长语境生成能力的基准却非常缺乏。为了弥补这一差距并提供全面的评估，我们引入了一个合成基准–LongGenBench，它允许灵活配置自定义的生成上下文长度。LongGenBench 通过重新设计问题格式，要求 LLM 用单一、连贯的长上下文回答问题，从而超越了传统基准。通过使用 LongGenBench 进行广泛评估，我们发现 (1) API 访问模型和开源模型在长文本生成场景中都表现出性能下降，降幅从 1.2% 到 47.1%；(2) 不同系列的 LLMs 表现出不同的性能下降趋势，其中 Gemini-1.5-Flash 模型在 API 访问模型中的性能下降幅度最小，而 Qwen2 系列在开源模型中的 LongGenBench 性能下降幅度最小。

https://arxiv.org/abs/2410.04199

ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

要使代理完全自动化科学发现，它必须能够完成工作流程中的所有基本任务。因此，在大胆宣称端到端自动化之前，我们呼吁对科学工作流中各个任务的代理进行严格评估。为此，我们提出了科学代理平台（ScienceAgentBench），这是一个用于评估数据驱动科学发现的语言代理的新基准。为了确保我们的基准具有科学真实性和现实意义，我们从四个学科的 44 篇同行评议出版物中提取了 102 项任务，并邀请九位主题专家对其进行验证。我们将每个任务的目标输出统一为一个独立的 Python 程序文件，并采用一系列评估指标来检查生成的程序、执行结果和成本。每个任务都要经过标注者和主题专家的多轮人工验证，以确保其标注质量和科学合理性。我们还提出了两种有效的策略来缓解数据污染问题。利用我们的基准，我们评估了五个开放重量级和专有 LLM，每个 LLM 都有三个框架：直接提示、OpenHands 和自我调试。

https://arxiv.org/abs/2410.04932

HuggingFace&Github

CANVAS

CANVAS 是一个结合视觉和语言指令的框架，可以实现常识感知的机器人导航。通过模仿学习，机器人能够从人类的导航行为中学习，以理解和执行抽象指令。配备 COMMAND 数据集，CANVAS 在处理噪声指令时表现优越，成功率显著高于传统系统 ROS NavStack，并在实际应用中展现了良好的从模拟到现实的转移能力。

https://worv-ai.github.io/canvas/

ControlFlow

ControlFlow 是一个用于构建智能 AI 工作流的 Python 框架，提供了一个结构化的开发者导向框架，用于定义工作流并将任务委派给大型语言模型（LLMs），同时保持控制和透明性。其主要功能包括创建可观察的离散任务、分配专门的 AI 代理、组合任务以实现复杂行为、提供类型安全的输出、部署特定任务的 AI 代理、调节控制与自主性的平衡、协调多个 AI 代理、以及支持完整的 Prefect 3.0 监控和调试。