大模型日报（7月6~7日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

聊聊大模型推理内存管理之 CachedAttention/MLA

本文探讨了大模型推理中的内存管理优化，特别是针对多轮对话场景的 CachedAttention 和 MLA 方法。CachedAttention 通过分层 KVCache 系统（AttentionStore），实现了显存内 KVCache 的有效管理，减少了 87% 的 TFTT，并提升了多轮对话的提示预填充吞吐量，降低了 70% 的端到端推理成本。该方法采用了逐层预加载、异步保存技术，以及对 RoPE 位置编码的解耦和截断，以优化内存使用和提高推理效率。MLA 方法则通过降低 KVCache 维度，实现了超过 90% 的 KVCache 减少，通过低秩分解技术和对 RoPE 的特殊处理，减少了内存占用，但在推理过程中增加了计算开销。两种方法都在内存管理和推理效率方面取得了显著进展，为大模型的实际应用提供了有效的解决方案。

https://zhuanlan.zhihu.com/p/707190620

图解序列并行云台28将（上篇）

序列并行技术在大模型训练中扮演关键角色，使得处理长序列数据成为可能。Megatron-SP 通过结合张量并行和序列并行，减少了计算量和显存消耗。Colossal-SP 和 MQSP 采用了分布式 Attention 机制，实现了序列的并行处理，但可能会带来通信效率问题。Blockwise Parallel Transformer 通过序列分块的方法，优化了长序列的处理过程。Ring Attention with Blockwise Transformers 和 STRIPED ATTENTION 则通过计算和通信重叠，以及负载均衡策略，提高了处理效率。BurstAttention 结合了 Ring Attention 和 FlashAttention，提出了 LAO 方法，进一步优化了计算效率。LSS 通过 AllGather 操作获取全量的 key 和 value 数据，但可能存在通信消耗较大的问题。LIGHTSEQ 通过负载均衡算法改进了 Ring Attention 的不均衡问题，并提出了重计算优化方法。目前，序列并行的主流方案可以分为 Ring FlashAttention、LSS 和 Ulysess，每种方法都有其独特的优势和适用场景。随着技术的不断发展，序列并行技术将继续进步，为大模型训练提供更高效的解决方案。

https://zhuanlan.zhihu.com/p/707204903

站在AI Scale-Up域的一个岔路口

我的朋友在研发AI训练芯片，特别是高性能Scale-Up网络（如Nvidia的NVL72），但他遇到技术困扰，反馈常围绕进度、KPI等非技术性方面。他的问题是如何设计>16P的Scale-Up AI训练芯片。NVL72通过Clos结构和高密度Cable实现无收敛的TB级别带宽。正常情况下，Scale-Up网络会有分层结构，例如Chiplet接口、PCB或Cable互联等。面对距离感，不同层次有不同最优解。计划A和计划B是两种分层结构的例子，分别强调Cable和Chiplet的互联。朋友的问题是，基于通用集合通信策略，计划A和计划B哪个更好？

https://zhuanlan.zhihu.com/p/707355769

LLM分离式推理可能带来的软硬件变革的迷思

文章首先介绍了大型语言模型（LLM）的分离式推理架构，即将模型的部分功能迁移到云端，而在本地设备上只保留必要的推理能力。这种架构被认为可能会对软硬件产生深远的影响。作者认为，尽管这种分离式推理带来了一些优势，如降低了设备的计算需求和能耗消耗，但它也带来了一些误解和迷思。例如，人们可能会错误地认为这将减少对高性能硬件的需求，或者认为云端计算资源是无限的。文章指出，分离式推理实际上可能会增加对高性能网络和数据中心的需求，而且云端的资源并非无限，还需要考虑成本和可扩展性的问题。此外，分离式推理可能会引发隐私和安全性问题，因为数据需要在本地和云端之间传输。最后，作者强调，虽然分离式推理可能会带来一些变革，但这些变革并不是一成不变的，而是需要根据实际情况和技术发展来不断调整和优化。

https://zhuanlan.zhihu.com/p/707199343?utm_psn=1792627597320003584

图解大模型计算加速系列：vLLM源码解析3，Prefix Caching

vLLM 中的 Prefix Caching 机制通过在推理过程中缓存具有相同前缀（Prefix）的逻辑块，有效地减少了冗余计算，提高了大模型的推理速度。该机制在 prefill 和 decode 阶段分别采用不同的 hash 计算方法来确保缓存的有效性。在 prefill 阶段，通过计算逻辑块的 hash 值来判断是否可以共享物理块，从而实现节省显存和减少重复计算。而在 decode 阶段，Prefix Caching 机制则根据逻辑块是否满载动态调整缓存策略，采用 copy-on-write 机制以优化内存使用。此外，文章还详细介绍了 CachedBlockAllocator 的实现，包括如何管理物理块的分配、释放和复用，以及驱逐器（Evictor）的作用，它通过 LRU（Least Recently Used）策略来管理不活跃的物理块，确保在设备空间有限时仍能保持高效的缓存利用。通过这些技术细节的深入分析，文章展示了 Prefix Caching 在提升大模型推理效率方面的潜力和实际应用价值。

https://zhuanlan.zhihu.com/p/707228704?utm_psn=1792627972915744768

无穹TechView | 漫谈大模型推理优化技术系列——静态推理

大模型推理优化技术中的静态推理，通过在模型部署前对计算图进行深度改造，实现算法层面的优化，包括算子融合、常量传播和精细化内存管理。这种预先优化策略能够在不影响预测准确度的前提下，降低推理计算的延迟和成本。文章特别强调了注意力和线性算子在推理过程中的关键作用，并介绍了如 FlashAttention、FlashDecoding 和 TensorRT-LLM 等技术的应用，它们通过优化这些核心算子，显著提升了大模型推理的效率。此外，计算图优化通过算子融合减少了数据搬运的开销，进一步提高了性能。无问芯穹推理引擎的实现案例展示了这些优化技术在实际大模型推理中的应用效果，能够在不同的输入输出长度和批处理大小下保持较高的吞吐率。

https://zhuanlan.zhihu.com/p/702888478?utm_psn=1792634001007190016

平安壹钱包：RAG等技术在金融支付类ToC应用场景的探索与落地

平安壹钱包利用 RAG 技术，结合知识库和标注平台，在金融支付类 ToC 应用中实现了大模型的有效落地。技术细节包括数据源的加载与处理、向量化知识检索、以及通过提示工程优化问题答案的准确性和可解释性。在合规监管的框架内，平安壹钱包通过选择性的技术选型和业务场景的精准定位，确保了技术应用的安全性和效率。此外，通过 Function calling 和 Agent 智能体的应用，平安壹钱包进一步提升了风控系统的自动化处理能力和决策效率。