大模型日报(10月19-20日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(10月19-20日 学术篇)

信号

01

Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines

大型语言模型 (LLMs) 在各种自然语言处理和推理任务中表现出卓越的能力。然而,他们在算术基础领域的表现仍然不尽如人意。在处理算术任务时,LLMs 经常记住特定示例,而不是学习底层的计算逻辑,这限制了他们推广到新问题的能力。在本文中,我们提出了一个可组合的算术执行框架 (CAEF),它使 LLMs 能够通过模拟图灵机来学习执行分步计算,从而真正理解计算逻辑。此外,所提出的框架具有高度的可扩展性,允许组合学习到的运算符,以显著降低学习复杂运算符的难度。在我们的评估中,CAEF 在 LLaMA 3.1-8B 模型的 7 种常见数学运算中实现了近乎 100% 的准确率,有效地支持涉及最多 100 位操作数的计算,而 GPT-4o 在某些情况下明显不足。
大模型日报(10月19-20日 学术篇)
https://arxiv.org/abs/2410.07896
02

Were RNNs All We Needed?

Transformers 在序列长度方面的可扩展性限制重新引起了人们对在训练期间可并行化的递归序列模型的兴趣。因此,已经提出了许多新颖的递归架构,例如 S4、Mamba 和 Aaren,它们实现了类似的性能。在这项工作中,我们重新审视了十多年前的传统递归神经网络 (RNN):LSTM (1997) 和 GRU (2014)。虽然这些模型由于需要随时间反向传播 (BPTT) 而速度较慢,但我们表明,通过从其输入、忘记和更新门中删除其隐藏的状态依赖关系,LSTM 和 GRU 不再需要 BPTT,并且可以有效地并行训练。在此基础上,我们引入了最小版本(minLSTM 和 minGRU),它们 (1) 使用的参数比传统版本少得多,并且 (2) 在训练期间完全可并行化(长度为 512 的序列速度提高了 175 倍)。最后,我们表明这些十年前的 RNN 的精简版本与最近序列模型的经验性能相匹配。
https://arxiv.org/abs/2410.07896
03

Round and Round We Go! What makes Rotary Positional Encodings useful?

位置编码 (PE) 是基于 Transformer 的大型语言模型 (LLMs,为注意力机制提供重要的序列位置信息。LLMs旋转位置编码 (RoPE),它根据查询和键的相对距离轮换查询和键。一个普遍的看法是 RoPE 很有用,因为它有助于随着相对距离的增加而衰减代币依赖性。在这项工作中,我们认为这不太可能是核心原因。我们研究了经过训练的 Gemma 7B 模型的内部结构,以了解 RoPE 在机械层面上的使用方式。我们发现 Gemma 通过利用最高频率来学习使用 RoPE 来构建稳健的“位置”注意力模式。我们还发现,一般来说,Gemma 非常喜欢使用最低频率的 RoPE,我们怀疑它被用来携带语义信息。我们用数学方法证明了 RoPE 的有趣行为,并进行了实验来验证我们的发现,提出了对 RoPE 的修改,以解决一些突出的问题并提高性能。我们相信,这项工作代表了更好地理解 LLMs,我们认为这对于将 LLMs大尺寸和上下文长度具有关键价值。
大模型日报(10月19-20日 学术篇)
https://arxiv.org/abs/2410.06205
04

Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces

在人类认知理论中,人类思维由两个系统支配:快速而直观的系统 1 和较慢但更具深思熟虑的系统 2。最近的研究表明,将系统 2 流程整合到 Transformer 中,包括大型语言模型 (LLMs),可以显着增强它们的推理能力。然而,纯粹类似于系统 2 思维的模型需要更高的计算成本,并且响应速度要慢得多。为了应对这一挑战,我们提出了 Dualformer,这是一个无缝集成快速和慢速推理模式的单 Transformer 模型。Dualformer 是通过使用随机推理轨迹对数据进行训练而获得的,其中轨迹的不同部分在训练过程中被丢弃。丢弃策略是根据跟踪结构专门定制的,类似于分析我们的思维过程并创建带有模式的快捷方式。在推理时,我们的模型可以配置为仅输出解决方案(快速模式)或同时输出推理链和最终解决方案(慢速模式),或者自动决定使用哪种模式(自动模式)。在所有情况下,Dualformer 在性能和计算效率方面都优于相应的基线模型:(1) 在慢速模式下,Dualformer 在 97.6% 的时间内以最佳方式解决了看不见的 30 x 30 迷宫导航任务,超过了 Searchformer(在具有完整推理轨迹的数据上训练)基线性能的 93.3%,而使用的推理步骤仅减少了 45.5%;(2) 在快速模式下,Dualformer 以 80% 的最佳率完成这些任务,明显优于仅求解模型(在仅求解数据上训练),后者的最佳率仅为 30%。 对于数学问题,我们的技术还通过 LLM提升,显示出其超越任务特定模型的泛化。

大模型日报(10月19-20日 学术篇)

大模型日报(10月19-20日 学术篇)

https://arxiv.org/abs/2410.07896
05

Round and Round We Go! What makes Rotary Positional Encodings useful?

强化学习 (RL) 在使大型语言模型 (LLMs人类偏好保持一致并提高其执行复杂任务的能力方面发挥着至关重要的作用。然而,由于使用多个模型和广泛的在线采样进行训练(例如 PPO),当前的方法要么需要大量的计算资源,要么被定义为老虎机问题(例如 DPO、DRO),这些问题通常难以完成多步骤推理任务,例如数学问题解决和涉及长思维链的复杂推理。为了克服这些限制,我们引入了直接 Q 函数优化 (DQO),它将响应生成过程表述为马尔可夫决策过程 (MDP),并利用软行为者-批评者 (SAC) 框架来优化由语言模型直接参数化的 Q 函数。与基于老虎机的方法相比,DQO 的 MDP 配方具有结构优势,可实现更有效的过程监控。在两个数学问题解决数据集 GSM8K 和 MATH 上的实验结果表明,DQO 优于以前的方法,使其成为一种很有前途的离线强化学习方法,用于对齐语言模型。
大模型日报(10月19-20日 学术篇)
https://arxiv.org/abs/2410.09302
06

Agent-as-a-Judge: Evaluate Agents with Agents

现代评估技术不足以用于代理系统。这些方法要么只关注最终结果——忽视了代理系统的循序渐进的性质,要么需要大量的体力劳动。为了解决这个问题,我们引入了 Agent-as-a-Judge 框架,其中代理系统用于评估代理系统。这是 LLM,结合了代理功能,可以为整个任务解决过程提供中间反馈。我们将 Agent-as-a-Judge 应用于代码生成任务。为了克服现有基准测试的问题并为代理作为裁判提供概念验证测试平台,我们提出了 DevAI,这是一个包含 55 个真实自动化 AI 开发任务的新基准测试。它包括丰富的手动注释,例如总共 365 个分层用户需求。我们使用 Agent-as-a-Judge 对三种流行的代理系统进行了基准测试,发现它的性能大大优于 LLMLLM-as-a-Judge,并且与我们的人工评估基线一样可靠。总而言之,我们相信 Agent-as-a-Judge 标志着现代代理系统向前迈出了坚实的一步 — 通过提供丰富可靠的奖励信号,实现动态和可扩展的自我提升。
大模型日报(10月19-20日 学术篇)

https://arxiv.org/abs/2410.08304

07

Global Lyapunov functions: a long-standing open problem in mathematics, with symbolic transformers

尽管语言模型取得了惊人的进步,但它们仍然难以完成复杂的推理任务,例如高等数学。我们考虑了数学中一个长期存在的悬而未决的问题:发现一个确保动力学系统全局稳定性的 Lyapunov 函数。此问题没有已知的通用解,算法求解器仅存在于一些小型多项式方程组中。我们提出了一种从随机解生成合成训练样本的新方法,并表明在此类数据集上训练的序列到序列转换器在多项式系统上的表现优于算法求解器和人类,并且可以发现非多项式系统的新 Lyapunov 函数。
大模型日报(10月19-20日 学术篇)


https://arxiv.org/abs/2410.08304

HuggingFace&Github
012

Ministral-8B-Instruct-2410

Ministral 8B 模型是一个基于 Mistral AI 研究许可的大型语言模型,具备 128k 上下文窗口和出色的性能。还提供了如何使用 vLLM 库和 mistral-inference 工具的指导,并强调了商业用途的授权要求。该模型支持函数调用,并适用于边缘计算和本地智能应用。
https://huggingface.co/mistralai/Ministral-8B-Instruct-2410
                  
推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/10/21630.html

Like (0)
Previous 2024-10-18 20:33
Next 2024-10-21 18:22

相关推荐

  • 让朱啸虎吃惊的AIGC创业公司,长这样。

    今天的朋友圈和群聊,被朱啸虎刷了屏。 起因是腾讯新闻《潜望》发了一篇文章朱啸虎讲了一个中国现实主义AIGC故事,里面提到了很多独到又犀利的见解,其中包括但不限于: 1. AIGC …

    2024-03-06
    286
  • MolarData| AI领域资讯速递

    MOLAR NEWS 2020年第40期   MolarData人工智能每周见闻分享,每周一更新。 四个假设论证“不可区分混淆”存在性,华人科学家触摸“皇冠上的明珠” 在密码学中,…

    2020-11-23
    184
  • 十问AI搜索

    前段时间,我组织了一次AI搜索的线下闭门会: 与会的同学包括了:360AI搜索、某大厂搜索、Gemini、ThinkAny、万知、Repotify、Miku、荣耀,基本占据了国内A…

    2024-07-11
    195
  • 终于可以轻松用上「真能干活」的 Agent 客服了!

    内容丨特工女巫 审核丨特工少女 在去年的 Sequoia Capital AI Ascent 2024 上,红杉的几位合伙人在活动期间提出观点:“GenAI 在客服领域已经初步找到…

    2025-03-18
    27
  • 大模型日报(1月14日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2025-01-14
    75
  • 大模型日报(9月29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-29
    200
  • ChatGPT很火,它能取代搜索引擎么?

    近日,一款名为ChatGPT的聊天机器人引起了广泛关注。许多人开始猜测,这款聊天机器人是否有可能取代搜索引擎,成为人类获取信息的新途径。那么,ChatGPT究竟有多厉害,它真的能取…

    2022-12-09
    156
  • 以 AI 为名,来「真格星球」开启创业风暴|Z Events

    Z Events 是真格的活动栏目。 「真格星球 ZhenPlanet」是真格主办的前沿科技人才孵化项目,自 2019 年起已成功举办四期。 我们已陪伴多家优秀的前沿科技创业公司走…

    2024-06-25
    114
  • 大模型日报( 3月4日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2025-03-04
    55
  • 瀚为科技刘奕杨:破壁|Z Circle

    「00后狠人计划」持续招募中!自我们发布计划一个月以来,已和数百位伙伴建立了联系。他们中有从 9 岁就开始编程的技术小天才,有 B 站上最早的百大学习 up 主,也有从高中就设计研…

    2024-04-19
    246