大模型日报（7月20~21日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

学习NetDAM

NetDAM 技术通过在 NIC 上增加 DRAM 扩展，创新性地实现了内存池化，与 CPU 分离独立的内存空间。它依赖于 CXL 技术来管理远程内存，确保低延迟和高带宽的通信。NetDAM 在主机内部和主机间通信的特征包括拓扑结构、延迟、丢包和一致性等方面的差异，并提出了解决方案。NetDAM 报文格式包括序列号、段路由头部、指令、地址和数据等字段，以支持高效的内存访问和计算。NetDAM 传输层采用标准的 IP/UDP over Ethernet 方式，确保确定性延迟和可靠传输，同时支持多路径和保序。NetDAM 的可编程指令集允许用户自定义扩展，以适应不同的应用场景。内存编址方面，NetDAM 设备使用 IOMMU 进行地址映射，并支持通过可编程交换机实现分布式 MMU。NetDAM 还提供了解决 Incast 问题的方法，并注重安全性，通过 SDN 控制和访问控制来保护内存共享和远程执行。在 MPI Allreduce 应用中，NetDAM 展示了其在分布式 AI 训练中的性能优势，通过 Ring Allreduce 算法实现了高效的参数同步。

https://zhuanlan.zhihu.com/p/709407177?utm_psn=1798420703365718017

铜、电迁移、氮化钽、氧化与CPU出错

文章首先提到了 Intel 13/14 代处理器存在的不稳定性问题，并指出了可能的原因是芯片内部氧化。虽然芯片被绝缘层包裹，但氧化并非指芯片接触氧气或其他氧化剂，而是指铜导线的电迁移问题和氮化钽薄膜中的氧化。芯片内部的晶体管需要通过导线连接，最初使用的是铝线，后来因其高电阻而被铜所替代。铜虽然电阻率低，但其活泼性导致在电场作用下发生电迁移，使导线变细电阻增大。此外，铜和二氧化硅绝缘层之间缺乏稳定的过渡晶格，导致铜原子可能扩散到二氧化硅中。为了解决这些问题，工程师采用了氮化钽作为中间层，它能与铜和绝缘层形成稳定的共价键，同时参与导电。然而，CVD 工艺生长氮化钽薄膜时，需要严格控制反应条件，否则会导致氧原子进入薄膜，进而破坏铜导线的晶格结构，增加电阻率，降低对电迁移的抗性。这种氧化问题会导致信号延迟增加，影响 CPU 的正常运算。文章最后分析了 Intel 13/14 代处理器问题的可能性，指出如果问题是由于原料污染或工艺流程问题，可以通过更换原料或改进工艺流程来解决。但如果是设计裕度太小导致的问题，可能需要对这一代产品进行更深入的考量。

https://zhuanlan.zhihu.com/p/710005469?utm_psn=1798417636775817221

如何将8B LLMs 1M tokens TTFT 优化至20s

文章首先介绍了大型语言模型（LLMs）在处理大规模数据集时面临的计算挑战，尤其是在训练过程中，如何平衡模型的大小、训练速度和性能是一个难题。作者提出了一系列优化策略，包括硬件优化、软件优化和算法优化，以及如何通过并行计算和流水线处理来缩短训练时间。通过这些优化措施，作者成功地将一个具有 80 亿参数和 100 万 tokens 的大型语言模型的训练时间 TTFT（Time To First Token）优化到了 20 秒左右。文章强调，这些优化不仅提高了训练效率，还降低了成本，使得大型语言模型的研究和应用更加可行。

https://zhuanlan.zhihu.com/p/709928421?utm_psn=1798419290094956546

Llama V2算子融合

Llama V2 算子融合技术通过合并深度学习模型中的多个算子，减少冗余计算和内存访问，提升推理效率。关键在于选择合适的融合策略，以适应不同的模型结构和硬件平台。实验结果表明，算子融合能显著提高模型推理速度，特别是在 GPU 和 TPU 等硬件加速器上。技术细节包括融合算法的实现、内存管理优化以及多种硬件平台上的性能调优策略。这些细节对于确保算子融合的有效性和通用性至关重要。未来的发展方向将包括更智能的融合决策机制和更广泛的硬件适配性。

https://zhuanlan.zhihu.com/p/709856812?utm_psn=1798419393153220608

LLM 推理参数量、计算量、通信量分析（MHA 为例）

文章首先介绍了大型语言模型（LLM）的基本概念，以及在推理阶段参数量、计算量和通信量的重要性。作者以多头注意力（MHA）为例，详细阐述了在模型推理过程中这三个量的具体计算方法和优化策略。其中，参数量主要涉及模型权重的大小，计算量关注的是模型在推理时的浮点运算数量，通信量则是模型在分布式系统中不同节点间传输数据的大小。文章指出，优化这些量对于提高模型的效率和降低运行成本至关重要。进一步，文章探讨了如何通过减少精度、剪枝、量化和知识蒸馏等技术来减少参数量和计算量，以及通过优化数据传输和模型分片技术来降低通信量。最后，作者提出了未来可能的研究方向，包括更高效的模型架构设计和更优化的推理策略。

https://zhuanlan.zhihu.com/p/709839358?utm_psn=1798419749002158081

一起实现一个Baby Triton

文章首先介绍了 Triton 的基本概念，包括它的定义、功能以及在机器学习领域的应用。接着，作者详细阐述了 Baby Triton 的设计理念，包括如何简化 Triton 的核心功能，以及如何在保持核心功能的同时，降低实现难度。文章继而深入到了 Baby Triton 的具体实现步骤，从数据预处理、模型构建到优化器的选择，每一步都进行了详细的说明和编码示例。此外，作者还讨论了如何通过调整超参数来提高模型性能，并且提供了一些实验结果来证明 Baby Triton 的有效性。最后，文章总结了整个实现过程，并对未来可能的改进方向进行了展望。

https://zhuanlan.zhihu.com/p/709844371?utm_psn=1798420094541508609

MLIR应用技术分析

本文详细介绍了谷歌推出的开源编译框架 MLIR，它的核心特点是多层级表达，能够在不同层级间实现转换、优化以及代码生成。MLIR 旨在为异构系统打造可复用性和可扩展性的编译器基础设施，特别适合用于领域专用架构（DSA），如现在流行的 ML 加速器。文章首先介绍了 MLIR 的基本概念和架构，包括它的核心理念、语法格式、代码生成流程以及如何通过 MLIR 实现同态加密技术的集成。接着，探讨了 MLIR 在软硬协同设计中的潜力，包括架构探索方法、基于 IR 的性能分析方法以及如何利用多面体模型进行循环优化。最后，文章分析了 CIRCT 项目如何基于 MLIR 实现 EDA 工具的统一化，以及 IREE 项目如何利用 MLIR 进行硬件加速器的编译优化。

https://zhuanlan.zhihu.com/p/690273836

HuggingFace&Github

VectorDB-recipes

这个 GitHub 项目是一个用于构建生成式人工智能应用程序的资源库。它包含了各种示例、应用程序、入门代码和教程，帮助用户快速启动生成式人工智能项目。这些应用程序是使用 LanceDB 构建的，这是一个免费、开源、无服务器的矢量数据库，无需任何设置即可使用。

https://github.com/lancedb/vectordb-recipes

ServerlessLLM

ServerlessLLM 是一个快速、经济且易于使用的库，专门用于多 LLM（大型语言模型）的服务，也称为无服务器推理、推理端点或模型端点。这个库非常适合 GPU 资源有限的环境，因为它可以实现模型动态加载到 GPU 上，并支持高度的 GPU 复用，从而最大化 GPU 利用率，无需为单个模型专门分配 GPU。