大模型日报(11月2-3日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(11月2-3日 学术篇)

潜空间活动报名

本期活动将在11月9日 10:00开始,我们邀请到的嘉宾是鱼哲,Lepton AI 创始成员,曾在阿里云担任高性能 AI 平台产品负责人,专注于 AI 在多个行业的落地及应用。Lepton AI 致力于建立高效可用的AI 基础设施,让团队更关注于应用构建及落地。在本次分享中鱼哲将带来关于不同AI产品形态对团队的挑战相关的思考,分享主题《Beyond Infra,What matters?—— 不同AI产品形态对团队的挑战》。除嘉宾分享外,每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流,将有机会找到志同道合、有共同创业梦想的小伙伴。报名通道已开启,欢迎扫描下方二维码报名。

大模型日报(11月2-3日 学术篇)

信号

01

Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification

论文主要介绍了一个提升大语言模型推理能力的新方法
主要创新点:
  1. 提出了一个基于多解复核的推理验证框架。通过生成多个推理路径,并使用验证器(Math-Rev和Code-Rev)来评估和选择最佳答案。验证器通过对正确和错误解法的训练数据进行学习,从而提高分辨能力。
  2. 创新性地结合了Chain-of-Thought(CoT)和Program-of-Thought(PoT)两种解决方案进行验证。CoT提供清晰的步骤推理,而PoT提供可执行的精确验证机制。通过结合两者的优势,显著提升了验证的准确性和可靠性。
实验结果:
  • 验证器的训练采用了无参考(reference-free)的偏好优化方法SimPO,表现优于现有方法
  • 在多个基准测试(如GSM8k和MATH)上取得了SOTA结果
  • 使用Qwen-72B-Instruct作为推理器时,甚至超越了GPT-4的表现
  • 对于较弱的模型改进更为显著,例如可以帮助LLaMA2-7B等模型显著提升性能
局限性:
  1. 采样和重排序策略会带来额外的计算开销
  2. 当前的验证器基于整体解决方案给出反馈,缺乏对每个推理步骤的细粒度评估
  3. 对于短序列任务的效果相对较差。
大模型日报(11月2-3日 学术篇)https://arxiv.org/abs/2410.05318
02

Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA

这篇论文提出了一种提升大语言模型部署效率的参数共享方法 – Relaxed Recursive Transformers。
核心创新点:
  1. 使用递归结构压缩模型
将原始Transformer模型转换为参数共享的递归模型,通过循环使用一个块的层而不是使用完整的层堆叠,可以显著减少模型参数量和内存占用,同时保持性能
  1. 层级LoRA放松约束
在递归层之间添加层级LoRA模块,引入有限的层特定参数,通过调节LoRA的秩值(rank),可以在完全参数共享和完全独立层之间取得平衡
  1. Continuous Depth-wise Batching策略
结合早退机制,提出了一种新的推理范式,理论上可以实现2-3倍的推理吞吐量提升
主要实验结果:
  1. 参数压缩效果
将Gemma 2B压缩为1B大小,性能损失很小,优于同等大小的TinyLlama 1.1B和Pythia 1B等基线模型
  1. 推理加速
结合早退机制,推理速度提升2-3倍,LoRA模块带来一定的计算开销,但整体性能仍有明显提升
  1. 初始化方法研究
提出了Stepwise、Average等几种参数初始化方法,通过SVD来初始化LoRA模块,效果优于零初始化
大模型日报(11月2-3日 学术篇)https://arxiv.org/abs/2410.20672
03

Looped Transformers for Length Generalization

核心思路和创新: 提出了 Looped Transformer 结构,可以通过循环使用相同的 Transformer 层,以自适应的迭代步数来处理不同长度的输入。模型在维持性能的同时大大提升了泛化能力。作者定义了”n-RASP-L”作为需要可变长度计算步骤的任务类型,包括计算奇偶性、复制序列、二进制加法等。
技术细节:
  1. 采用端到端训练,不需要中间步骤的监督信号,只需要任务的最终输出和所需步数
  2. 在每次迭代中注入原始输入,增强表征能力
  3. 使用自适应的停止条件,包括基于已知步数的Oracle和基于最大置信度的动态判断
实验结果:
  • 在多个长度泛化任务上,Looped Transformer 的性能都显著优于基线模型,可以泛化到远超训练集长度的输入
  • 与使用 pause token 等其他变体相比,自适应深度循环方案效果更好
  • 可视化结果显示模型学会了何时停止迭代,并能在合适的步数后收敛
大模型日报(11月2-3日 学术篇)
https://arxiv.org/abs/2409.15647
04

LLM The Genius Paradox: A Linguistic and Math Expert’s Struggle with Simple Word-based Counting Problems

这篇论文研究了大语言模型在简单单词计数任务上表现不佳的原因。主要内容如下:
核心发现:
  1. 推翻了三个主流假设:
  • 子词标记化导致性能差 – 通过设计多种字符级评估实验发现并非如此
  • 缺乏字符级训练 – 在分类任务上使用字符输入仍有较好表现
  • 单词中独特字符过多 – 性能与独特字符数量无关
  1. 数学/代码训练数据无助于改善:
  • 专门训练的数学和代码模型在这类简单任务上仍然表现糟糕
  • 但代码模型在显式编写Python代码时可以完美解决
  1. 使用推理可以显著提升性能:
  • 比直接回答或微调更有效
  • 通过链式推理等方法,GPT-4o可以完美解决所有计数任务
  • 强调了”先推理后回答”的重要性
启示和建议:
  1. 模型缺陷研究方法:
  • 应该通过严格的实验设计验证假设
  • 不能轻易归因于模型或数据的固有限制
  1. 能力获取与评估:
  • 复杂任务的能力不一定能迁移到简单任务
  • 需要更全面的能力评估标准
  1. 训练策略:
  • 应该在预训练中培养推理意识
  • 推理能力比简单的任务特定训练更重要
大模型日报(11月2-3日 学术篇)
https://arxiv.org/abs/2410.14166

HuggingFace&Github
01

Kotaemon

Kotaemon 是一个开源、干净且可定制的 RAG 用户界面,专为与文档进行聊天而设计,面向终端用户和开发者。它提供简洁的文档问答界面,支持多种 LLM 模型(如 OpenAI 和 Azure),以及本地 LLM 模型。主要功能包括混合式 RAG 管道、支持多模态问答、详细引用信息、复杂推理方法和可配置设置。
大模型日报(11月2-3日 学术篇)
https://github.com/Cinnamon/kotaemon
02

pgai

pgai 是一个用于在 PostgreSQL 中开发 RAG、语义搜索和其他 AI 应用程序的工具集。它简化了构建搜索、检索增强生成 (RAG) 和其他 AI 应用程序的过程。pgai 建立在流行的 PostgreSQL 向量搜索扩展 pgvector 和 pgvectorscale 之上,提供了更多功能。
大模型日报(11月2-3日 学术篇)
https://github.com/timescale/pgai

推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/11/21661.html

Like (0)
Previous 2024-11-03 06:16
Next 2024-11-03 22:11

相关推荐