我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!
学习
如何从头训练大语言模型: A simple technical report
-
模型架构
-
MHA, GQA, MLA:自回归LLM基本使用多头注意力(MHA),为了降低推理中的KV缓存消耗,Qwen和Llama等模型选择了分组注意力(GQA),使注意力头共享KV。MLA(少量KV缓存)进一步优化了性能,但与ROPE位置编码不兼容,需做额外调整。 -
规范化与激活函数:当前主流使用RMSNorm和SwiGLU,提升了训练稳定性。预归一化比post-norm更稳定,参数初始化方式也在不断优化以减少loss spike现象。 -
长上下文处理:位置编码主要使用ROPE,许多工作致力于增强ROPE的外推能力,例如NTK Scaling和Dual Chunk Attention(DCA),使模型能处理超长序列(如1M token)。
-
SFT(监督微调)
-
SFT的核心是通过next token prediction loss进行指令微调。在这个阶段,模型学习遵循指令格式,并学会正确停在句末。SFT阶段的数据质量至关重要,数据应具有多样性和广泛的指令覆盖。此阶段的学习率较小,通常为1e-5至5e-5。 -
数据调优:SFT的关键在于数据配比和多阶段课程学习。每个训练阶段需动态调整数据组合,保持pretrain知识的同时优化特定领域的表现。
-
预训练
-
优化器与Batch设置:AdamW优化器和余弦退火调度是常用配置,batch size随着训练进程动态增大。预训练时,开源框架如Megatron和DeepSpeed可用于分布式训练,flash-attn提升效率。 -
评估挑战:Pretrain阶段的评估多依赖perplexity和任务续写能力,但效果常难以衡量。评估比SFT和pretrain复杂,需动态调整各任务间的权衡。
-
数据处理与配比
-
数据清洗与去重:规则过滤和多语言数据检测是预训练数据处理的关键步骤。模型末期的高质量数据对最终性能至关重要,长文本与推理数据应适时加入。 -
Scaling Laws:通过scaling laws计算模型大小和训练配置,并进行预估。这些法则指导了数据、算力和模型规模之间的平衡。
-
推理与后处理(Post-Train)
-
Post-training阶段(如RLHF)是提升模型推理能力的核心。RLHF通过强化学习为模型提供正负反馈信号,优化模型在复杂任务中的表现。推理阶段的数据构造、错误纠正与工具调用,都是增强推理能力的重点。

多模态文档检索ColPali和DSE解读
-
双塔模型(DSE):类似于CLIP,文本和视觉各自生成向量。为了增强视觉模型的OCR能力,使用了多模态大模型生成图片端的向量。 -
ColBERT模型(ColPali):与DSE不同,ColPali使用ViT模型的patch embedding,将页面截图分割为多个patch,并对每个patch生成向量,保留更多细粒度的信息。该模型通过多模态大模型(PaliGemma-3B)编码图像,并在LLM中生成多个token embedding,通过ColBERT-style的“late interaction”匹配文档patch embedding,提高检索精度。
-
建索引:通过多模态视觉大模型对页面截图进行分割和编码,并将embedding输入语言模型,投影到较低维度(128维)进行存储。 -
检索:LLM生成query的token embedding,与文档的patch embedding进行匹配,计算query与文档页面的相似度。
-
双塔模型如CLIP效果一般,而ColPali在实验中表现最优,特别是在法语任务上展现了显著的优势。 -
ColPali通过更精细的embedding方式,显著提升了文档检索效果,尤其在多语言和复杂文档场景下。
https://zhuanlan.zhihu.com/p/826088920
模拟人类原理的具身智能系统设计
-
肢体状态体验对象:系统通过传感器实时感知自身肢体的状态。这种数据内部使用,帮助系统在学习阶段理解自己的肢体状态并建立驱动模型。
-
系统通过随机驱动算法来模仿人类婴儿的无意识动作,帮助建立动作实例数据。然后,系统分析这些数据,拟合一个驱动模型,将意识指令转化为实际肢体动作指令。通过持续反馈和调整,系统可以逐渐提升驱动模型的准确性和灵活性。

GR-2 论文解析
-
模型架构:GR-2基于GPT风格的视觉操作模型,采用了两阶段训练策略。首先在大规模视频数据上进行视频生成预训练,之后在机器人数据上进行微调。 -
预训练阶段:通过视频生成任务学习未来帧的预测,掌握视频的动态变化。训练数据包括公共数据集如Howto100M、Ego4D、EPIC-KITCHENS等。 -
微调阶段:使用机器人数据进行微调,以预测动作轨迹和视频。该模型在处理多任务时表现出了强大的扩展性,能够高效地从少量数据中学习并适应新任务。
-
多任务学习:在105个任务中取得了97.7%的成功率,即使在复杂环境中也能保持稳定的表现,泛化性能卓越。 -
端到端物体抓取:在工业化环境中,GR-2能够高效执行箱子拾取任务,并展现了对未见物体的优异泛化能力,成功率达到79%。 -
模型扩展性:实验表明,随着模型规模的增加(从30M到719M参数),模型性能呈现显著提升,验证了GR-2在大规模预训练下的强大扩展性。

写在Ph.D第0年:AI/CV科研菜鸟的持续进阶之路

长序列(Long Context)大模型笔记
-
ALIBI 和 RoPE:早期在长序列模型中,ALIBI和RoPE常被选择,但如今RoPE逐渐成为主流(如Llama、Mistral、Cohere等)。ALIBI虽然在初期展示了无损外推的优势,但在训练到一定长度后(如1T tokens)容易出现过拟合,并且在调整方面不如RoPE灵活。ALIBI与Flash Attention不兼容,这是实现超长序列处理的瓶颈。相比之下,RoPE拥有更强的数学基础,并且能很好地与Flash Attention适配,在长序列扩展性上表现优异。
-
RoPE Scaling:这是当前长序列模型中常用且有效的扩展方法,也称为NTK Scaling。通过在微调阶段增加RoPE的theta,模型能够处理更长的序列。其他相关工作如Dynamic NTK、LongLora等尽管提出了创新思路,但实际效果不如RoPE Scaling稳健。研究表明,RoPE在随着训练长度增加时逐渐调大theta能提升性能,并且部分研究尝试了极大规模的RoPE base,效果显著。
-
降低计算开销:线性Attention和Sparse Attention等方法尝试通过减少计算复杂度来优化,但在大规模模型上应用效果有限,较新的GQA、MQA等方法则提供了更具实际价值的优化方向。其他如混合架构(Sparse + Dense Attention)的方案显示出在超长序列上的潜力,特别是在1M token以上的长度上。 -
熵控制:长序列中的Attention熵问题是另一个挑战,随着序列长度增加,Attention分布趋于平缓,导致信息聚焦能力下降。通过调整Attention logits(如LogN Scaling)使其变得更稀疏,能在长序列中保持聚焦能力。最近提出的Differential Transformer通过两次softmax相减的方法减少无关token的影响,展示了在长序列中的优秀表现。
-
预训练与微调数据:长序列数据的生成与处理是关键,尤其是指令微调阶段。现有研究多依赖合成数据,如Llama3,虽然能帮助预训练,但对真实任务的提升有限。评估方法也在不断演进,较为复杂的评测工具如Ruler Benchmark在测试长序列外推能力上表现较好。
-
Flash Attention和Sequence Parallel:Flash Attention是目前主流的长序列处理方法,适用于128k token左右的任务。如果处理更长序列(如256k+),则需要Sequence Parallel等优化方法。一些新兴技术如Deepspeed Ulysses提出在Sequence Parallel与Tensor Parallel间切换的策略,能进一步提升训练效率。
-
KV Cache压缩:长序列推理时KV Cache的显存占用是一个主要问题,相关工作如H2O和SnapKV尝试通过压缩KV Cache来减少显存需求。不过,目前大多数方法在多轮对话中无法动态适应上下文变化,因此动态筛选KV Cache的技术仍待进一步探索。
https://zhuanlan.zhihu.com/p/926602895
HuggingFace&Github
pyramid-flow-sd3
Pyramid Flow 是一种高效的自回归视频生成方法,基于流匹配技术,能够生成高质量的10秒视频,分辨率为768p,帧率为24 FPS,并支持图像到视频的生成。该项目使用开源数据集进行训练,提供了安装和使用的详细指南,并且近期发布了技术报告和模型检查点。用户可以通过简单的代码示例进行文本到视频和图像到视频的生成,同时支持CPU卸载以降低GPU内存需求。
https://huggingface.co/rain1011/pyramid-flow-sd3
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/10/21578.html