大模型日报（4月13~14日学术篇）

欢迎观看大模型日报，如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。

欢迎大家一起交流！

学习

AI 集群基础设施 InfiniBand 详解

文章详细介绍了InfiniBand技术在AI集群中的应用和重要性。InfiniBand是一种高性能网络通信协议，主要用于高速数据传输和低延迟通信。在分布式AI训练和高性能计算中，InfiniBand通过提供高带宽和低延迟的连接，支持高效的机器间通信和GPU通信，从而显著提升了整体的计算性能。文章还探讨了InfiniBand的各个技术规格，包括PCIe 6.0和7.0的发展，以及它们对提升数据吞吐量和设备通信速度的贡献。此外，还提到了InfiniBand的各种实现方式，如NVLink和NVSwitch，这些都是为了优化和提升多GPU系统的通信效率。

https://mp.weixin.qq.com/s/2phqowTOr4Hf3K9H-8W48w

MoE-SFT：混合专家模型在大模型中的应用

文章讨论了混合专家模型（MoE）的技术细节及其在大模型中的有效性。MoE模型通过门控网络进行专家选择，允许模型根据输入选择最适合的“专家”进行计算，从而提高了模型的计算效率和推理速度。MoE的优势在于可以有效扩展模型的规模并降低训练与推理成本，尤其适用于参数规模庞大的模型。文章也指出，MoE的训练速度更快，推理速度提升，同时具有较好的多任务平衡能力。然而，MoE模型的泛化能力不足，显存占用依然高，是其主要劣势。此外，文中还分享了Mixtral 8x7B微调的经验，这是一种具有8个专家的MoE模型，适用于处理复杂的多任务场景。

https://zhuanlan.zhihu.com/p/691402411?utm_psn=1762839367150735360

Nvidia Blackwell系列GPU性能及总成本分析：B100 vs B200 vs GB200

Nvidia的新Blackwell系列GPU，包括B100、B200和GB200，显著提升了内存带宽和浮点运算能力。B100在700W功率下提供1750 TFLOPS的FP16/BF16计算能力，而更高功率的B200提供2250 TFLOPS，GB200则在液冷条件下达到2500 TFLOPS。这一系列显著增强了内存带宽，从H100的3.4 TB/s增加到Blackwell系列的最高8.0 TB/s，极大改善了推理吞吐量和交互性。此外，Nvidia通过增加硅片面积（约1600mm²，拥有2080亿晶体管）而非仅靠工艺缩小，以实现性能的倍增，尽管面对摩尔定律放缓和3nm工艺挑战。

https://www.semianalysis.com/p/nvidia-blackwell-perf-tco-analysis?utm=

行主序与列主序矩阵：Mojo和NumPy的性能分析

本文分析了行主序和列主序矩阵在内存中的存储方式及其对性能的影响。行主序是将行向量或行中的元素在连续的内存位置存储，而列主序则是将列向量或列中的元素在连续的内存位置存储。因此，经常需要访问行元素的算法在行主序矩阵上运行更快，而经常需要访问列元素的算法在列主序矩阵上运行更快。文中举例，使用Mojo和NumPy对行主序和列主序矩阵进行性能对比，发现在处理列操作时，列主序矩阵性能更优。文章还讨论了不同编程语言和库对行主序和列主序的偏好，如MATLAB、Fortran使用列主序，而C、C++和NumPy默认使用行主序。

https://www.modular.com/blog/row-major-vs-column-major-matrices-a-performance-analysis-in-mojo-and-numpy

多GPU分布式推理技术细节解析

Hugging Face的Diffusers库支持使用🤗 Accelerate和PyTorch Distributed进行多GPU分布式推理。通过Accelerate库，用户可以简化分布式环境的设置，并轻松分配GPU进行模型推理。初始化一个accelerate.PartialState来自动检测并设置分布式环境，无需显式定义rank或world_size。使用split_between_processes工具作为上下文管理器，自动在多个处理器间分配推理任务。此外，还可以使用device_map来决定如何在多个设备上分配模型，这在有多个GPU的情况下尤其有用。例如，可以通过设定”balanced”策略来在所有可用GPU间平均分配模型，以充分利用硬件资源。

https://huggingface.co/docs/diffusers/main/en/training/distributed_inference?utm

HuggingFace&Github

Spring AI

Spring AI 是一个旨在简化包含人工智能功能的应用程序开发的项目。它从一些著名的 Python 项目中汲取灵感，如 LangChain 和 LlamaIndex，但并不是这些项目的直接移植。该项目的目标是为开发人员提供一些抽象，作为开发人工智能应用程序的基础，并具有多种实现，使得可以轻松地交换组件而只需进行最少的代码更改。其使命是使下一波生成式人工智能应用程序不仅适用于 Python 开发人员，而且将在许多编程语言中无处不在。

https://github.com/spring-projects/spring-ai?tab=readme-ov-file

aiXcoder-7B

aiXcoder是一个针对软件开发人员的人工智能工具，旨在提高代码编写的效率和准确性。它是基于大型代码模型训练的，具有广泛的上下文信息和预训练任务，可以用于代码完成和代码生成任务。aiXcoder 7B Base是其中一个版本，经过了1.2T独特标记的广泛训练，在代码完成场景中表现出色，并在多语言nl2code基准测试中超过了其他类似参数大小的模型。

https://github.com/aixcoder-plugin/aiXcoder-7B

parler-tts

Parler-TTS 是一种轻量级文本转语音（TTS）模型，可以根据给定说话者的风格（性别、音调、说话风格等）生成高质量、自然的语音。与其他 TTS 模型相比，Parler-TTS 是一个完全开源的版本，所有数据集、预处理、训练代码和权重均在许可许可下公开发布，使社区能够在其基础上开发他们自己强大的 TTS 模型。