大模型日报（10月13日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习‍

如何从头训练大语言模型: A simple technical report

在经历了自己1.5B大语言模型（LLM）的训练之后，作者总结了从模型架构到数据处理的完整技术路线。以下是一些关键技术细节：

模型架构

MHA, GQA, MLA：自回归LLM基本使用多头注意力（MHA），为了降低推理中的KV缓存消耗，Qwen和Llama等模型选择了分组注意力（GQA），使注意力头共享KV。MLA（少量KV缓存）进一步优化了性能，但与ROPE位置编码不兼容，需做额外调整。
规范化与激活函数：当前主流使用RMSNorm和SwiGLU，提升了训练稳定性。预归一化比post-norm更稳定，参数初始化方式也在不断优化以减少loss spike现象。
长上下文处理：位置编码主要使用ROPE，许多工作致力于增强ROPE的外推能力，例如NTK Scaling和Dual Chunk Attention（DCA），使模型能处理超长序列（如1M token）。

SFT（监督微调）

SFT的核心是通过next token prediction loss进行指令微调。在这个阶段，模型学习遵循指令格式，并学会正确停在句末。SFT阶段的数据质量至关重要，数据应具有多样性和广泛的指令覆盖。此阶段的学习率较小，通常为1e-5至5e-5。
数据调优：SFT的关键在于数据配比和多阶段课程学习。每个训练阶段需动态调整数据组合，保持pretrain知识的同时优化特定领域的表现。

预训练

优化器与Batch设置：AdamW优化器和余弦退火调度是常用配置，batch size随着训练进程动态增大。预训练时，开源框架如Megatron和DeepSpeed可用于分布式训练，flash-attn提升效率。
评估挑战：Pretrain阶段的评估多依赖perplexity和任务续写能力，但效果常难以衡量。评估比SFT和pretrain复杂，需动态调整各任务间的权衡。

数据处理与配比

数据清洗与去重：规则过滤和多语言数据检测是预训练数据处理的关键步骤。模型末期的高质量数据对最终性能至关重要，长文本与推理数据应适时加入。
Scaling Laws：通过scaling laws计算模型大小和训练配置，并进行预估。这些法则指导了数据、算力和模型规模之间的平衡。

推理与后处理（Post-Train）

Post-training阶段（如RLHF）是提升模型推理能力的核心。RLHF通过强化学习为模型提供正负反馈信号，优化模型在复杂任务中的表现。推理阶段的数据构造、错误纠正与工具调用，都是增强推理能力的重点。

https://zhuanlan.zhihu.com/p/906819356

多模态文档检索ColPali和DSE解读

目前基于PDF的RAG（检索增强生成）的链路较长，需要先解析PDF生成文本块，再进行文本索引。这种方式忽略了PDF中的视觉元素（如表格、图片），导致信息丢失和错误传播。为了解决这一问题，近期提出了一些基于多模态模型的文档检索方法。

新方法：不再解析PDF文本，而是直接对PDF页面截图，通过视觉-多模态模型生成向量。查询时，用户输入query，通过文本模型生成向量，再进行文档截图的检索。

关键技术细节：

双塔模型（DSE）：类似于CLIP，文本和视觉各自生成向量。为了增强视觉模型的OCR能力，使用了多模态大模型生成图片端的向量。
ColBERT模型（ColPali）：与DSE不同，ColPali使用ViT模型的patch embedding，将页面截图分割为多个patch，并对每个patch生成向量，保留更多细粒度的信息。该模型通过多模态大模型（PaliGemma-3B）编码图像，并在LLM中生成多个token embedding，通过ColBERT-style的“late interaction”匹配文档patch embedding，提高检索精度。

ColPali的建索引与检索流程：

建索引：通过多模态视觉大模型对页面截图进行分割和编码，并将embedding输入语言模型，投影到较低维度（128维）进行存储。
检索：LLM生成query的token embedding，与文档的patch embedding进行匹配，计算query与文档页面的相似度。

实验结果：

双塔模型如CLIP效果一般，而ColPali在实验中表现最优，特别是在法语任务上展现了显著的优势。
ColPali通过更精细的embedding方式，显著提升了文档检索效果，尤其在多语言和复杂文档场景下。

https://zhuanlan.zhihu.com/p/826088920

模拟人类原理的具身智能系统设计

概述该方案的具身系统模仿了人类的身体与肌肉系统，通过意识模块感知并建立外部物理世界模型，包括自身的肢体系统实例。意识模块负责高层次的行为决策，例如“伸手至苹果位置”的指令。具身系统则根据之前的学习数据，驱动肢体完成具体动作。

系统首先通过学习建立具身驱动动作的模型，再基于这些模型生成实际动作的驱动参数。通过这个过程，系统可以实现具身的控制和目标动作的执行。

架构具身系统分为两个阶段：学习阶段和使用阶段。学习阶段通过随机驱动算法建立动作对象模型和拟合函数模型。使用阶段则通过学习的模型完成具身动作。整个系统分为意识模块和具身驱动模块，其中意识模块规划任务和路径，而具身模块负责执行。

GR-2 论文解析

一、核心贡献

GR-2通过在38百万个视频片段（共500亿个标记）上进行大规模预训练，捕捉了世界的动态变化，并在之后通过机器人数据的微调来提升其操作能力。模型展示了高效的多任务学习能力，在100多个任务中平均成功率为97.7%。此外，它在全新环境、物体和任务中展现了优异的泛化能力。

二、方法

模型架构：GR-2基于GPT风格的视觉操作模型，采用了两阶段训练策略。首先在大规模视频数据上进行视频生成预训练，之后在机器人数据上进行微调。
预训练阶段：通过视频生成任务学习未来帧的预测，掌握视频的动态变化。训练数据包括公共数据集如Howto100M、Ego4D、EPIC-KITCHENS等。
微调阶段：使用机器人数据进行微调，以预测动作轨迹和视频。该模型在处理多任务时表现出了强大的扩展性，能够高效地从少量数据中学习并适应新任务。

三、实验结果

多任务学习：在105个任务中取得了97.7%的成功率，即使在复杂环境中也能保持稳定的表现，泛化性能卓越。
端到端物体抓取：在工业化环境中，GR-2能够高效执行箱子拾取任务，并展现了对未见物体的优异泛化能力，成功率达到79%。
模型扩展性：实验表明，随着模型规模的增加（从30M到719M参数），模型性能呈现显著提升，验证了GR-2在大规模预训练下的强大扩展性。

四、笔者思考

GR-2的工作在数据集规模和模型的扩展性分析方面对机器人操作领域有重要推进作用。未来的研究可以关注在新机器人本体上如何利用少量数据快速适应新任务，同时在旧任务上保持良好的性能。这对于多任务机器人操作及少样本学习具有广泛的应用前景，值得进一步探讨。

https://zhuanlan.zhihu.com/p/940625091

写在Ph.D第0年：AI/CV科研菜鸟的持续进阶之路

在过去一年半的科研旅程中，作者取得了许多进展，并愿意在此分享一些心得，特别是在申请25Fall US CS Ph.D.的间隙，希望对其他科研工作者有所启发。

首先，作者共发表了三篇文章，前两篇仅入选ICLR和CVPR的workshop，第三篇正在审稿中，但已获得业内前辈的高度认可，可能成为未来的代表作。同时，作者创建了一个名为Awesome-Mamba-Papers的库，积累了1.1k的stars，极大提升了在Github上的曝光量，并吸引了全球不同机构的关注与合作。

作者的科研历程始于2022年初结束量化实习后，重返AI领域。授课型硕士课程强化了深度学习基础，但科研训练不够深入。通过向前辈们学习，作者积累了丰富的科研经验，并将其整理为《Successful Ph.D Journey》系列。这一系列总结了从导师、合作者、朋友以及网络上不认识的前辈处学习到的科研经验，帮助构建了更加系统的科研思维。

科研成长的关键在于大量学习、实践提升技能，并与高水平专家合作，最终形成自己独特的研究方法。作者受到了许多顶级Ph.D.学生的激励，包括来自MIT的Chonghe Wang、Stanford的Andrej Karpathy以及Princeton的Helen姐。这些前辈的经历不仅让作者认识到科研的本质，也帮助克服了自我怀疑，特别是在面对科研中的失败与挑战时，给予了强大的精神支持。

在不同科研阶段，明确自己的定位至关重要。作者总结了来自不同前辈的经验，特别是在如何分阶段学习和提升科研技能方面，如Sida Peng的项目流程分享、Jun Cen的科研四阶段论等。

作者也积累了具体的AI科研目标和经验，包括如何撰写高质量论文、如何利用Github提升影响力等。通过与CMU的Junwei Liang、ZJU的Guodun Lee以及UCLA的Runsheng Xu的交流，作者在科研中得到了极大的帮助，尤其是在如何高效管理科研项目和社交网络方面。

最后，作者总结了一些实践中的AI科研CheatSheet和最佳实践，包括服务器配置、代码管理以及实验日志记录等工具。这些实践经验大大提升了工作效率，并帮助建立了正反馈系统，使得科研中能保持持续进步和动力。

希望这些经验能为后来的科研工作者带来一些启发，也愿大家在科研路上不断前行，早日成为领域专家！

https://zhuanlan.zhihu.com/p/960781637

长序列（Long Context）大模型笔记

位置编码（Position Embedding）

ALIBI 和 RoPE：早期在长序列模型中，ALIBI和RoPE常被选择，但如今RoPE逐渐成为主流（如Llama、Mistral、Cohere等）。ALIBI虽然在初期展示了无损外推的优势，但在训练到一定长度后（如1T tokens）容易出现过拟合，并且在调整方面不如RoPE灵活。ALIBI与Flash Attention不兼容，这是实现超长序列处理的瓶颈。相比之下，RoPE拥有更强的数学基础，并且能很好地与Flash Attention适配，在长序列扩展性上表现优异。

RoPE扩展与优化

RoPE Scaling：这是当前长序列模型中常用且有效的扩展方法，也称为NTK Scaling。通过在微调阶段增加RoPE的theta，模型能够处理更长的序列。其他相关工作如Dynamic NTK、LongLora等尽管提出了创新思路，但实际效果不如RoPE Scaling稳健。研究表明，RoPE在随着训练长度增加时逐渐调大theta能提升性能，并且部分研究尝试了极大规模的RoPE base，效果显著。

注意力机制（Attention）

降低计算开销：线性Attention和Sparse Attention等方法尝试通过减少计算复杂度来优化，但在大规模模型上应用效果有限，较新的GQA、MQA等方法则提供了更具实际价值的优化方向。其他如混合架构（Sparse + Dense Attention）的方案显示出在超长序列上的潜力，特别是在1M token以上的长度上。
熵控制：长序列中的Attention熵问题是另一个挑战，随着序列长度增加，Attention分布趋于平缓，导致信息聚焦能力下降。通过调整Attention logits（如LogN Scaling）使其变得更稀疏，能在长序列中保持聚焦能力。最近提出的Differential Transformer通过两次softmax相减的方法减少无关token的影响，展示了在长序列中的优秀表现。

长序列数据与评估

预训练与微调数据：长序列数据的生成与处理是关键，尤其是指令微调阶段。现有研究多依赖合成数据，如Llama3，虽然能帮助预训练，但对真实任务的提升有限。评估方法也在不断演进，较为复杂的评测工具如Ruler Benchmark在测试长序列外推能力上表现较好。

训练框架

Flash Attention和Sequence Parallel：Flash Attention是目前主流的长序列处理方法，适用于128k token左右的任务。如果处理更长序列（如256k+），则需要Sequence Parallel等优化方法。一些新兴技术如Deepspeed Ulysses提出在Sequence Parallel与Tensor Parallel间切换的策略，能进一步提升训练效率。

推理优化

KV Cache压缩：长序列推理时KV Cache的显存占用是一个主要问题，相关工作如H2O和SnapKV尝试通过压缩KV Cache来减少显存需求。不过，目前大多数方法在多轮对话中无法动态适应上下文变化，因此动态筛选KV Cache的技术仍待进一步探索。

https://zhuanlan.zhihu.com/p/926602895

HuggingFace&Github

pyramid-flow-sd3

Pyramid Flow 是一种高效的自回归视频生成方法，基于流匹配技术，能够生成高质量的10秒视频，分辨率为768p，帧率为24 FPS，并支持图像到视频的生成。该项目使用开源数据集进行训练，提供了安装和使用的详细指南，并且近期发布了技术报告和模型检查点。用户可以通过简单的代码示例进行文本到视频和图像到视频的生成，同时支持CPU卸载以降低GPU内存需求。