大模型日报（8月7日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

如何优雅地测量GPU CUDA Kernel耗时？

本文详细介绍了在 CUDA 编程中测量 GPU 核函数（Kernel）耗时的方法。作者首先指出了 GPU 和 CPU 耗时测量的差异，解释了 GPU 的异步执行逻辑，并通过示例代码演示了如何测量核函数的启动时间和实际执行时间。文章继而推荐了两种测量手段：Nsight System 和 CudaEvent。Nsight System 是 NVIDIA 提供的可视化工具，能够直观地展示每个核函数的执行耗时和启动器的时间。而 CudaEvent 通过一系列 API（如 cudaEventCreate、cudaEventRecord、cudaEventSynchronize、cudaEventElapsedTime 和 cudaEventDestroy），允许开发者更精确地测量指定核函数的执行时间，并提供了统计信息如平均时间、中位数和分布等。最后，作者还提到了其他工具如 NCU，并强调了在实际应用中选择合适的测量方法的重要性。

https://zhuanlan.zhihu.com/p/712660021?utm_psn=1804173156463808514

如何把 PyTorch 的 GPU 利用率提升到 100% ?

文章首先指出，GPU 作为一种稀缺且昂贵的资源，需要被充分利用以提高计算效率和速度。 GPU 利用率的衡量方式通常是指 GPU 上有计算和图形活动的时间占总运行时间的比例，而 GPU 利用率不足 100% 意味着 GPU 在程序运行时有空闲状态。测量 GPU 利用率可以通过 nvidia-smi dmon、NVIDIA Nsight Systems (NSYS)、NVIDIA Data Center GPU Manager (DCGM) 和 NVIDIA Management Library (NVML) 等多种方式。

在适用场景方面，文章通过使用 NGC PyTorch 23.09 和 Stable Diffusion 模型进行测试，展示了不同软硬件配置和应用程序特性下 GPU 利用率的差异。结果表明，软硬件系统和应用程序配置不同，GPU 利用率通常会有较大差异，受到系统硬件配置、GPU 上负载的大小和应用程序特性的影响。

文章进一步分析了 GPU 利用率低的根本原因，认为是由于 CPU 与 GPU 不协调，即 CPU 负载过多或 GPU 负载过少，以及 CPU 在准备运行时环境时导致 GPU 等待。

为了解决 GPU 利用率低的问题，文章提出了一系列解决方案，包括硬件升级、增加 GPU 负载和降低 CPU 负载等。增加 GPU 负载的方法包括增加每个 GPU 上的 batch size、共享 GPU 等；降低 CPU 负载的方法则包括预处理 / 缓存、多线程、CPU 与 GPU 流水线、迁移到 GPU 上、减少 CUDA kernel 数目、消除 CPU 与 GPU 之间的同步以及使用 CUDA Graph 等。

https://fkong.tech/posts/2023-11-19-torch-gpu-util/

torch原生——tensor并行&张量并行（附带MLP例子）

在 PyTorch 2.3 版本中，引入了torch.distributed.tensor.parallel模块，专门用于张量并行。核心函数parallize_module负责将模型并行化。并行化方法通过设置不同的ParallelStyle来定义，包括ColwiseParallel和RowwiseParallel两种主要的张量并行方式，以及SequenceParallel、PrepareModuleInput和PrepareModuleOutput等。这些并行策略需要指定参数、输入和输出的处理方式，即Placement，包括Shard、Replicate和_Partial三种方法。通过一个 MLP 的例子，文章展示了如何将nn.Linear层的参数沿列或行分割，以及如何在多个 GPU 上复制模型或进行维度对齐。此外，文章还强调了并行训练过程中的关键点，如梯度累积、通信开销和内存使 AGE，以及如何使用torch.cuda.memory_allocated()来监控内存使用情况。

https://zhuanlan.zhihu.com/p/707711038?utm_psn=1804464555071528960

使用 vLLM 为多个 LoRA 适配器提供服务

文章探讨了使用 vLLM 技术为多个 LoRA 适配器提供服务的方法。LoRA 适配器通过在预训练模型中引入低秩矩阵进行微调，能够快速适应新任务。vLLM 通过虚拟化技术，使得单一模型能够支持多个 LoRA 适配器，从而在保持模型轻量级的同时提升了其在多任务处理上的能力。这种方法减少了内存和计算资源的消耗，尤其对于大规模模型的部署具有重要意义。

https://zhuanlan.zhihu.com/p/712668798?utm_psn=1804465132673298432

[2024智源大会速览] 视频生成篇

2024 智源大会视频生成篇聚焦了 AI 在视频制作领域的应用前沿。Aditya Ramesh 从 OpenAI 介绍了从图生文到文生图的发展脉络，强调了语言智能在视觉智能中的作用。万鹏飞从快手提出的可灵视频生成大模型中，展示了 3D 时空注意力机制和 Scaling Law 的应用，实现了分辨率高、运动合理的视频生成。王长虎从爱诗科技角度探讨了 Character2Video 和 MagicBrush 技术，提出了基于 adapter 方法和 RL 的 PPO 模块来提升视频生成的保真度和美学质量。卢志武教授从人民大学视角分析了视频生成的两种范式，即基于图片 SD 模型的时序关系建模和直接全局生成的方法。鲍凡从生数科技介绍了 Vidu 及其在 4D 视频生成中的应用，以及如何通过 DGS 方法进行 3D 场景的重建和优化。SVD 方法介绍了其在 Large Video Dataset (VLD) 建设、Temporal Video Fine-Tuning 和 Generate High Frame & High Resolution Video 方面的技术创新。Sora 方法通过 NaViT 技术支持原分辨率训练，实现了长视频的连贯性和高效率生成。

https://zhuanlan.zhihu.com/p/713143946?utm_psn=1804435630656192512

大模型分不清 9.9 与 9.11 谁大，那 Embedding 模型呢？

本文由肖涵从 Jina AI 撰写，探讨了大型语言模型在数字比较任务中的挑战。通过对jina-embeddings-v2-base-en和jina-reranker-v2-multilingual模型进行的实验，文章评估了它们在不同数字比较场景下的性能，包括小数、货币、日期和时间等。实验采用余弦相似度和相关性得分作为评价指标，结果显示 Embedding 模型在简单数字比较中表现较好，但在复杂数值区间或浮点数比较时效果下降。Reranker 模型在这些任务中的表现不稳定，尤其是在处理大数字和随机数字范围时。文章指出，分词策略和训练数据对模型的数值推理能力有重要影响，并强调了这种能力对于提升搜索质量的重要性。特别是在处理结构化数据如 JSON 时，模型的算术能力至关重要。

https://mp.weixin.qq.com/s/wIm3loi5KcznFYTpgIl-Dg

HuggingFace&Github

MiniCPM-V-2_6

MiniCPM-V 2.6 是一款强大的多模态模型，基于 80 亿参数，具备卓越的单图像、多图像和视频理解能力。它在多个基准测试中表现优异，具有强大的 OCR 功能和高效的推理性能，支持多种使用方式，适合在本地设备上进行实时应用。

https://huggingface.co/openbmb/MiniCPM-V-2_6

VidGen-1M

VidGen-1M 是一个用于文本到视频模型训练的高质量数据集。它通过粗到细的策划策略生成，确保视频质量高、字幕详细且具有良好的时间一致性。与当前常用的数据集相比，VidGen-1M 解决了低时间一致性、字幕质量差、视频质量不佳和数据分布不均等问题，从而为文本到视频模型提供了更合适的训练数据。这使得使用该数据集训练的视频生成模型在实验结果上超过了其他模型。