我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

潜空间活动报名

本期活动将在11月9日 10:00开始，我们邀请到的嘉宾是鱼哲，Lepton AI 创始成员，曾在阿里云担任高性能 AI 平台产品负责人，专注于 AI 在多个行业的落地及应用。Lepton AI 致力于建立高效可用的AI 基础设施，让团队更关注于应用构建及落地。在本次分享中鱼哲将带来关于不同AI产品形态对团队的挑战相关的思考，分享主题《Beyond Infra，What matters？—— 不同AI产品形态对团队的挑战》。除嘉宾分享外，每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流，将有机会找到志同道合、有共同创业梦想的小伙伴。报名通道已开启，欢迎扫描下方二维码报名。

信号

Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification

论文主要介绍了一个提升大语言模型推理能力的新方法

主要创新点:

提出了一个基于多解复核的推理验证框架。通过生成多个推理路径,并使用验证器(Math-Rev和Code-Rev)来评估和选择最佳答案。验证器通过对正确和错误解法的训练数据进行学习,从而提高分辨能力。
创新性地结合了Chain-of-Thought(CoT)和Program-of-Thought(PoT)两种解决方案进行验证。CoT提供清晰的步骤推理,而PoT提供可执行的精确验证机制。通过结合两者的优势,显著提升了验证的准确性和可靠性。

实验结果:

验证器的训练采用了无参考(reference-free)的偏好优化方法SimPO,表现优于现有方法
在多个基准测试(如GSM8k和MATH)上取得了SOTA结果
使用Qwen-72B-Instruct作为推理器时,甚至超越了GPT-4的表现
对于较弱的模型改进更为显著,例如可以帮助LLaMA2-7B等模型显著提升性能

局限性:

采样和重排序策略会带来额外的计算开销
当前的验证器基于整体解决方案给出反馈,缺乏对每个推理步骤的细粒度评估
对于短序列任务的效果相对较差。

https://arxiv.org/abs/2410.05318

Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA

这篇论文提出了一种提升大语言模型部署效率的参数共享方法 – Relaxed Recursive Transformers。

核心创新点:

使用递归结构压缩模型

将原始Transformer模型转换为参数共享的递归模型,通过循环使用一个块的层而不是使用完整的层堆叠，可以显著减少模型参数量和内存占用,同时保持性能

层级LoRA放松约束

在递归层之间添加层级LoRA模块,引入有限的层特定参数，通过调节LoRA的秩值(rank),可以在完全参数共享和完全独立层之间取得平衡

Continuous Depth-wise Batching策略

结合早退机制,提出了一种新的推理范式，理论上可以实现2-3倍的推理吞吐量提升

主要实验结果:

参数压缩效果

将Gemma 2B压缩为1B大小,性能损失很小，优于同等大小的TinyLlama 1.1B和Pythia 1B等基线模型

推理加速

结合早退机制,推理速度提升2-3倍，LoRA模块带来一定的计算开销,但整体性能仍有明显提升

初始化方法研究

提出了Stepwise、Average等几种参数初始化方法，通过SVD来初始化LoRA模块,效果优于零初始化

https://arxiv.org/abs/2410.20672

Looped Transformers for Length Generalization

核心思路和创新: 提出了 Looped Transformer 结构,可以通过循环使用相同的 Transformer 层,以自适应的迭代步数来处理不同长度的输入。模型在维持性能的同时大大提升了泛化能力。作者定义了”n-RASP-L”作为需要可变长度计算步骤的任务类型,包括计算奇偶性、复制序列、二进制加法等。

技术细节:

采用端到端训练,不需要中间步骤的监督信号,只需要任务的最终输出和所需步数
在每次迭代中注入原始输入,增强表征能力
使用自适应的停止条件,包括基于已知步数的Oracle和基于最大置信度的动态判断

实验结果:

在多个长度泛化任务上,Looped Transformer 的性能都显著优于基线模型,可以泛化到远超训练集长度的输入
与使用 pause token 等其他变体相比,自适应深度循环方案效果更好
可视化结果显示模型学会了何时停止迭代,并能在合适的步数后收敛

https://arxiv.org/abs/2409.15647

LLM The Genius Paradox: A Linguistic and Math Expert’s Struggle with Simple Word-based Counting Problems

这篇论文研究了大语言模型在简单单词计数任务上表现不佳的原因。主要内容如下:

核心发现:

推翻了三个主流假设:

子词标记化导致性能差 – 通过设计多种字符级评估实验发现并非如此
缺乏字符级训练 – 在分类任务上使用字符输入仍有较好表现
单词中独特字符过多 – 性能与独特字符数量无关

数学/代码训练数据无助于改善:

专门训练的数学和代码模型在这类简单任务上仍然表现糟糕
但代码模型在显式编写Python代码时可以完美解决

使用推理可以显著提升性能:

比直接回答或微调更有效
通过链式推理等方法,GPT-4o可以完美解决所有计数任务
强调了”先推理后回答”的重要性

启示和建议:

模型缺陷研究方法:

应该通过严格的实验设计验证假设
不能轻易归因于模型或数据的固有限制

能力获取与评估:

复杂任务的能力不一定能迁移到简单任务
需要更全面的能力评估标准

训练策略:

应该在预训练中培养推理意识
推理能力比简单的任务特定训练更重要

https://arxiv.org/abs/2410.14166

HuggingFace&Github

Kotaemon

Kotaemon 是一个开源、干净且可定制的 RAG 用户界面，专为与文档进行聊天而设计，面向终端用户和开发者。它提供简洁的文档问答界面，支持多种 LLM 模型（如 OpenAI 和 Azure），以及本地 LLM 模型。主要功能包括混合式 RAG 管道、支持多模态问答、详细引用信息、复杂推理方法和可配置设置。

https://github.com/Cinnamon/kotaemon

pgai

pgai 是一个用于在 PostgreSQL 中开发 RAG、语义搜索和其他 AI 应用程序的工具集。它简化了构建搜索、检索增强生成 (RAG) 和其他 AI 应用程序的过程。pgai 建立在流行的 PostgreSQL 向量搜索扩展 pgvector 和 pgvectorscale 之上,提供了更多功能。