大模型日报（5月23日学术篇）

特别活动

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

大 Batch 训练 LLM 探索

文章首先介绍了大 Batch 训练的基本概念，即在训练过程中使用更大的数据批次来加速模型的收敛。作者指出，大 Batch 训练可以减少通信开销，提高硬件资源的利用率，但同时也带来了新的挑战，如梯度噪声增加、模型收敛困难等。随后，文章讨论了大 Batch 训练中的关键技术，包括梯度累积、学习率调整、权重衰减等策略，这些策略有助于解决大 Batch 训练中的收敛问题。文章还提到了一些实际的应用案例，展示了在大型语言模型训练中如何成功应用大 Batch 技术。最后，作者对大 Batch 训练的未来发展进行了展望，强调了持续优化算法和硬件配置的重要性。

https://zhuanlan.zhihu.com/p/666997679?utm_psn=1776623516152389632

LLaVA（六）训练你自己的多模态模型

LLaVA v1.5 多模态模型训练涉及两个技术阶段：特征对齐和视觉指令微调。特征对齐阶段利用 MLP connector 对齐图像和文本特征，训练使用 LAION-CC-SBU 数据集的 LLaVA-Pretrain 子集，适用于多模态对话数据处理。视觉指令微调阶段应用了 GPT-4 生成的指令跟随数据和 VQA 数据，以及多个数据集（如 COCO、GQA 等），通过微调优化模型对多模态指令的响应能力。整个训练过程需要大量计算资源，建议使用 8 个 A100 GPU，并提供了内存优化和参数调整的策略。此外，还详细说明了如何使用自定义数据集进行微调，包括数据格式化和训练脚本的修改。微调后的模型应使用 wandb 进行性能评估，以确保模型的高效和准确性。

https://zhuanlan.zhihu.com/p/698218006?utm_psn=1776623143408787456

GPU深度学习性能的三驾马车：Tensor Core、内存带宽与内存层次结构

GPU 深度学习性能关键依赖于 Tensor Core、内存带宽和内存层次结构。Tensor Core 能显著加速矩阵乘法运算，这在深度学习中尤为重要。例如，在没有 Tensor Core 的情况下，32×32 矩阵乘法需要 504 个周期，而使用 Tensor Core 后只需 235 个周期，性能提升显著。RTX 30/RTX 40 系列的异步拷贝和 H100 的 TMA 技术进一步优化了数据传输，减少了内存访问延迟。内存带宽对于 Tensor Core 的充分利用至关重要，因为张量计算核心需要快速获取数据。GPU 的内存层次结构，包括二级缓存、共享内存、一级缓存和寄存器，对于提高数据访问速度和计算效率至关重要。Ada 架构的 GPU 拥有更大的二级缓存，能够更高效地处理大型模型，如 BERT large，提升了矩阵乘法运算速度。通过合理利用这些技术细节，可以选择和使用最适合深度学习任务的 GPU，从而获得最优的训练和推理性能。

https://zhuanlan.zhihu.com/p/669987669?utm_psn=1776651110843301888

多核之后，CPU 的发展方向是什么？

在多核时代之后，CPU 发展的关键技术包括异构计算、特化处理器、三维堆叠技术、光电子学与量子计算的应用、以及能效优先的设计理念。异构计算通过集成不同类型的核心，提高处理各种任务的效率。特化处理器针对特定应用如人工智能，进行定制化设计。三维堆叠技术有助于提升性能与能效，降低延迟。光电子学与量子计算的探索，开启了计算速度的新境界。能效优先考虑到移动与云计算的需求，成为设计重点。此外，软件与硬件的协同优化，进一步挖掘了性能潜能。这些技术细节的发展，共同推动了 CPU 向更高性能和更低能耗的进步。

https://www.zhihu.com/question/20809971/answer/1678502542?utm_psn=1776935387489312768

Pytorch 显存管理机制与显存占用分析方法

PyTorch 显存管理机制采用动态申请与二次分配策略，通过 cudaMalloc 从 GPU 申请显存块 Segment，并将其分离为子块 Block 进行使用。显存的释放依赖于 torch.cuda.empty_cache() 调用，该调用会释放未分配的 Segment。PyTorch 提供了多种显存占用分析方法，包括内置 API、Snapshot 功能、nvidia-smi 工具和 torch.cuda.mem_get_info 函数，以帮助开发者监控和优化显存使用。Snapshot 功能能够记录 CUDA allocator 的显存消耗、调用堆栈和时间线，生成 .pickle 文件供分析。文章还提供了一个全连接网络训练的示例代码，展示了如何在训练过程中使用这些工具进行显存分析。通过这些方法，开发者可以更好地理解和管理 PyTorch 应用中的显存使用，从而提高 GPU 资源的利用率。

https://zhuanlan.zhihu.com/p/699254132?utm_psn=1776938336575778818

用 Coze(扣子) 打造浏览器书签助手（上）

本文详细介绍了利用扣子 (Coze) 平台打造一个高效浏览器书签助手的技术实现过程。通过多 Agents 模式，Bot 能够灵活地组合和协作，实现复杂的功能。记忆变量和长期记忆功能则使 Bot 能够存储和利用用户数据，提供个性化服务。触发器功能让 Bot 能够根据时间或事件自动运行任务。快捷指令简化了用户操作，提升了交互体验。在技术细节上，文章描述了如何通过异步请求和代理处理书签提取、数据清洗，以及如何使用大模型进行书签分类和检索。最终，通过整合这些技术，构建了一个能够通过指令整理和检索书签的 Bot，显著提高了用户处理书签的效率。

https://mp.weixin.qq.com/s/4RH6C-M7zzd_6-34lhMwfQ

HuggingFace&Github

CogVLM2

CogVLM2 是一个新一代的开源多模态语言模型系列，相较于上一代有了显著的性能提升。CogVLM2支持更长的文本长度和更高分辨率的图像，并提供了中英双语的版本。其在多个基准测试中的成绩超过了许多非开源的同类模型，体现出了优异的能力。CogVLM2提供了基础使用教程和微调示例，帮助开发者快速上手。

https://github.com/THUDM/CogVLM2

Khoj

Khoj 是一款创建永久可用的个人 AI 助手应用程序，用户可以将笔记和文档共享给 AI 助手，由此扩展自己的数字大脑。该AI助手可以访问互联网获取最新信息，并支持在多种平台使用，同时提供快速准确的语义搜索功能。此外，Khoj 的 AI 助手还能创造个性化图像和理解用户语音，整个项目是开源且可以自行搭建的。