大模型日报（7月15日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

Blaze：SparkSQL Native算子优化在快手的深度优化及大规模应用实践

快手开发的 Blaze 是一款基于 Rust 和 datafusion 框架的 SparkSQL Native 执行引擎，旨在通过向量化技术和 SIMD 指令提升执行效率。Blaze 通过 Native Session Extension 将 Spark 物理执行计划转换为 Native Plan，实现与 Spark 分布式计算框架的兼容，并通过 Native Engine 执行计算，提高性能。在深度优化中，Blaze 采用了细粒度 FailBack 机制、基于 CBO 的转换策略、自定义的向量化数据传输格式、多级内存管理策略，以及对聚合算法的优化，减少了重复计算，提升了执行效率。目前，Blaze 支持 Parquet 向量化读写、常用算子和表达式，以及自研的 Remote Shuffle Service，并在 TPC-H 测试中显示出性能的显著提升

https://mp.weixin.qq.com/s/ne5FCgFDK29BWbLHjm0ZqA

AI计算时代的数据中心转型

在 AI 计算时代，数据中心正面临前所未有的转型挑战。CPU、GPU、FPGA 和 DSA 等多样化计算技术各自在推理、训练和特定任务中展现出色，但也带来了更高的功耗和冷却需求。随着大型语言模型（LLM）的兴起，对算力的需求呈指数级增长，推动了不同类型加速器的应用。基准测试如 MLCommons 在评估加速器性能中扮演了关键角色，帮助业界选择最佳 AI 计算解决方案。数据中心的发展从单节点向整机架和集群级别迁移，需要优化网络设计，并考虑更高的功率密度和冷却设施的升级。此外，AI 基础设施的规模化和成本控制也成为了重要议题，需要平衡推理和训练的资源分配，以实现 AI 技术的广泛应用和商业化。

https://mp.weixin.qq.com/s/yqMsg0_ZBPp3XriKihceLA

语言模型的训练时间：从估算到 FLOPs 推导

本文旨在解释如何估算大型语言模型（LLM）训练所需的时间，并通过计算浮点运算次数（FLOPs）来精确推导。作者提出了一个简化的公式 训练时间 ≈ 6TP/nX，其中 T 是总 token 数量，P 是模型参数量，n 是显卡数量，X 是每张卡每秒实际做的浮点运算数。文章详细阐述了 FLOPs 的估算和精算过程，指出了在计算中只考虑权重矩阵的矩阵乘法，并且展示了如何将 FLOPs 转换为实际的训练时间。此外，作者还讨论了模型训练中的激活值重计算、显存带宽瓶颈以及不同硬件对 FLOPS 的影响。通过这篇文章，读者可以学习到如何基于模型参数和硬件性能来估算训练大型语言模型所需的时间，并理解在实际训练中可能遇到的技术细节和挑战。

https://zhuanlan.zhihu.com/p/646905171?utm_psn=1788246568375296000

CUDA实现矩阵乘法的性能优化

本文深入探讨了在 CUDA 环境下实现矩阵乘法的性能优化。首先，介绍了矩阵乘法的并行算法基础，包括如何在 GPU 上分配内存、传输数据以及启动核函数。然后，详细阐述了性能优化的关键技术细节，如通过合理组织线程和共享内存来减少全局内存访问延迟，以及如何通过 tile size 的调整和 loop unrolling 优化来提高计算效率。文章还强调了使用合适的矩阵分块策略能够显著提升数据重用和内存带宽利用率。通过实验对比，展示了这些优化措施能够显著提高矩阵乘法运算的性能。

https://zhuanlan.zhihu.com/p/708583794?utm_psn=1795762463217680384

序列并行云台第29将

文章介绍了 Ascend C 算子在 Ascend AI 处理器（NPU）上实现多核并行、流水计算和 double buffer 技术的原理和实践。首先，介绍了 AI Core 的硬件基础，包括标量计算单元、向量计算单元、矩阵计算单元、Local Memory 和 DM

KV-Runahead 提出了一种高效的并行方案，通过协调多个进程生成 KV 缓存，以加速大型语言模型（LLM）的推理过程，特别是第一个标记的生成时间（TTFT）。与传统的张量或顺序并行化方案不同，KV-Runahead 利用因果注意力图的特性，自动最小化计算和通信开销，显著提升了推理速度。实验结果表明，KV-Runahead 在 Llama 7B 和 Falcon 7B 上分别实现了超过 1.4 倍和 1.6 倍的加速，展示了其在不同上下文长度和 GPU 数量配置下的优越性能。

https://zhuanlan.zhihu.com/p/708670154?utm_psn=1795760188160094209

CUDA-MODE 课程笔记第四课: PMPP 书的第4-5章笔记

CUDA-MODE 课程笔记第四课，深入探讨了 PMPP 书籍中的并行程序模型和性能分析技术。课程强调了并行度、工作量、延迟和带宽等概念的重要性，这些是构建并行性能模型的基础。在性能分析方面，课程指出了如何通过识别瓶颈和使用性能模型来优化并行程序，特别是在 GPU 加速环境下。技术细节上，课程提供了具体的分析方法和工具，如使用性能计数器和分析工具，如 NVIDIA Nsight Systems 和 NVIDIA Nsight Compute，来进行性能测试和优化。

https://zhuanlan.zhihu.com/p/708682239?utm_psn=1795759927307952128

LLM前沿技术跟踪：experts是否越多越好？MOE的Scaling law研究

文章首先介绍了 MOE 模型中关键的两个参数：专家总数量和每个 token 激活的专家数量。通过实验，研究发现在激活专家数量不变的情况下，增加专家总数量可以提高模型效果，而模型推理成本基本不变。然而，专家数量的增加也带来了训练困难。研究者训练了一系列模型，每个模型配置了不同数量的 experts（2、4、8、16、32），并发现模型参数、expert 数量和训练 token 数目越多，loss 越低，但 loss 曲线随着 expert 数量增长会趋向于平稳。尽管模型只训练一次且离线，推理可能有无数次，因此推理成本更为重要。研究表明，4-8 个 expert 数量最佳，因为过多的 expert 会导致推理时大量参数不被使用，浪费内存。在相同预算下，专家人数越多，推理质量越好，但推理成本越高。最终，研究总结了在 attention 参数量不变的情况下，expert 数量越多，模型总参数越多，效果越好，但推理时内存浪费率越高；在总参数量不变的情况下，增加 expert 数量可以减少所需训练数据量，以更少的训练成本达到相同性能。