大模型日报（5月31日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

高能力全透明双语大语言模型MAP-Neo完全开源

数据处理pipeline：提供了预训练数据（包括OCR处理）、去重和基于Spark的分布式数据处理支持。
训练数据：使用4.5T高质量tokens进行训练，提供了详细的预训练语料库和训练代码。
模型架构和训练：包括分词器、基础模型和对齐模型的训练代码，解决了Megatron-LM框架的问题，支持大规模预训练。
模型Checkpoint：发布了中间Checkpoint，确保重现性。
评估和优化：提供了详细的评估代码和优化技巧。

MAP-Neo的开源为LLM研究提供了重要参考，特别是对非英语地区的研究者。

https://mp.weixin.qq.com/s/hKdufVyzAhxFKFIScT9YQA

如何高效实现矩阵乘？

文章主要介绍了如何从 CUDA 初学者的角度出发，高效实现大规模正方形 FP32 矩阵乘的优化过程。首先，明确了目标是实现比 cublas 更快的矩阵乘，并通过理论分析确定合理的矩阵分块与排布方法。性能测试显示，手写的矩阵乘能够达到硬件 95% 的峰值性能。在代码实现方面，详细讨论了朴素的 GEMM 实现、矩阵分块（Tiling）、Thread、Warp 和 Block 级优化。具体到技术细节，提到了使用 shared memory 来减少全局内存交互，以及如何通过向量外积和 double buffer 技术来优化线程级计算。此外，还探讨了如何通过 Warp Tiling 和向量化访存来提高并行计算效率，并避免 bank conflict。在 Block 级优化中，关注了 L2 cache 的命中率和波形（Wave）的影响。最后，作者指出了未来优化方向，包括 split K、长尾问题和分块细调等。整个优化过程强调了理论与实践相结合，并且利用 Nsight Compute 等性能分析工具对优化效果进行了验证。

https://mp.weixin.qq.com/s/3WgIpmZarlNIWj0rsEH17w

大模型训练优化：论反向传播中序列并行和张量并行的通信计算重叠方法

本文深入探讨了大模型训练中的并行技术，特别是在张量并行和序列并行中实现通信计算重叠的方法。在张量并行中，通过优化 FFN 和 Attention 层的通信计算顺序，减少了内存占用和提高了计算效率。序列并行方面，文章提出了一种适用于 DeepSpeed-Ulysses 的通信计算重叠策略，显著降低了通信开销。此外，文章还讨论了序列并行实践中的挑战，如 Ring-Attention 的优化实现、大规模 Ring-Attention 的通信优化以及 USP+ZeRO3+Offload 的实现问题。作者强调通信计算重叠对于提升大模型训练效率的重要性，并呼吁行业内对序列并行技术进行更多探索和实践。

https://zhuanlan.zhihu.com/p/700639611?utm_psn=1779569304334897152

我们的AI语音代理论题

网页内容揭示了 AI 语音助手技术的最新发展及其在商业和消费者领域的应用趋势。AI 语音助手利用自然语言处理（NLP）、大型语言模型（LLM）和文本到语音（TTS）技术，能够模拟人类对话，为用户提供服务。随着多模态模型的兴起，技术栈可能会整合，降低延迟和成本，提升用户体验。在 B2B 领域，AI 语音助手正逐步替代传统电话树系统，提供更高效、准确的客户服务解决方案，尤其在特定行业中，通过深度定制化服务，满足复杂的通话需求。而在 B2C 市场，AI 语音助手正开始提供之前需要人类提供的服务，如心理咨询等，并有潜力创造全新的用户互动方式。文章强调，成功的 AI 语音助手产品需要专注于技术细节，如对话流程的精细化处理、情感识别能力的提升，以及针对特定用户场景的定制化开发。这些技术细节的打磨，将是 AI 语音助手在未来市场中取得成功的关键。

https://a16z.com/ai-voice-agents/

Pytorch 显存管理机制与显存占用分析方法

PyTorch 显存管理机制采用动态申请与二次分配的策略，通过 cudaMalloc 从 GPU 申请显存块（Segment），并在其中划分出子块（Block）进行使用。显存管理器根据 tensor 的大小，将 Block 分配到 large pool 或 small pool，以优化显存使用。PyTorch 提供了 API 如 torch.cuda.memory_allocated 和 torch.cuda.memory_reserved 来监控显存占用。Snapshot 工具可以记录显存消耗的历史和时间线，帮助开发者分析和优化显存使用。nvidia-smi 虽然可以显示 GPU 显存占用，但刷新频率低，不适合实时监控。torch.cuda.mem_get_info 可以查询指定 GPU 的可用显存量。文章最后通过一个全连接网络的训练示例，展示了如何在实际操作中应用这些工具和方法，以及如何通过断言来确保显存使用的正确性和效率。

https://zhuanlan.zhihu.com/p/699254132

NVIDIA AI 芯片演进解读与推演

NVIDIA 的 GB200 超级芯片采用双 Die 设计，具备 20 PFLOPS 的 FP4 算力，与前代 H100 相比，晶体管数量增加了一倍，算力提升了 5 倍。GB200 通过 NVLink、InfiniBand 和 Ethernet 三种网络技术实现互联，其中 NVLink 作为专有技术，演进速度最快，适用于 GPU 直连互联。GB200 NVL72 系统采用背板电缆互联，实现了高效的算力扩展，但面临高功耗和散热挑战。未来 AI 芯片发展可能面临的挑战包括算力提升受限于工艺演进、存储技术的发展与 GPU 演进同步问题，以及机框间互联技术成本和功耗的挑战。SuperPOD 超级节点的商业化需要降低 Rack-to-Rack 互联成本。NVLink、InfiniBand 和 Ethernet 三种网络技术在未来不太可能融合，各自在特定应用场景中具有不同的优势和发展方向。

https://mp.weixin.qq.com/s/PQL1popiYarfXpiALlhHcw

半导体真空零部件

半导体真空零部件在芯片制造中起着关键作用，它们包括真空泵、真空阀门和真空测量仪器等，确保了芯片生产过程中的高度纯净和精确控制。目前，全球市场规模呈现增长趋势，但技术门槛高，尤其是在芯片制造的关键环节，如极 ultraviolet lithography（EUV）技术中的超高真空要求。国内企业虽然在技术积累和产业链建设方面取得了一定进展，但与国际先进水平仍存在差距。中金公司通过投资支持，助力国内半导体真空零部件企业提升技术实力，推动产业升级和市场布局。未来，随着新材料、新技术的不断涌现和产业链的完善，预计半导体真空零部件领域将迎来新一轮发展机遇。

https://mp.weixin.qq.com/s/LaoXBt-RFNJZcAvlWS9MrQ

HuggingFace&Github

V-Express

V-Express 是一种创新的肖像视频生成方法，通过渐进式的 dropout 操作来平衡不同强度的控制信号(如音频、姿态和原始图像)，解决了弱信号被强信号所掩盖的问题，并提供了多种生成策略，如无翻转、固定人脸和偏移翻转等，可根据需求调整不同输入条件的权重，生成逼真自然的说话视频，为视频编辑、虚拟主播等应用提供了帮助，同时发布了可直接使用的代码和预训练模型。