大模型日报(5月23日 学术篇)

特别活动

大模型日报(5月23日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月23日 学术篇)

学习

01

大 Batch 训练 LLM 探索

文章首先介绍了大 Batch 训练的基本概念,即在训练过程中使用更大的数据批次来加速模型的收敛。作者指出,大 Batch 训练可以减少通信开销,提高硬件资源的利用率,但同时也带来了新的挑战,如梯度噪声增加、模型收敛困难等。随后,文章讨论了大 Batch 训练中的关键技术,包括梯度累积、学习率调整、权重衰减等策略,这些策略有助于解决大 Batch 训练中的收敛问题。文章还提到了一些实际的应用案例,展示了在大型语言模型训练中如何成功应用大 Batch 技术。最后,作者对大 Batch 训练的未来发展进行了展望,强调了持续优化算法和硬件配置的重要性。
大模型日报(5月23日 学术篇)https://zhuanlan.zhihu.com/p/666997679?utm_psn=1776623516152389632
02

LLaVA(六)训练你自己的多模态模型

LLaVA v1.5 多模态模型训练涉及两个技术阶段:特征对齐和视觉指令微调。特征对齐阶段利用 MLP connector 对齐图像和文本特征,训练使用 LAION-CC-SBU 数据集的 LLaVA-Pretrain 子集,适用于多模态对话数据处理。视觉指令微调阶段应用了 GPT-4 生成的指令跟随数据和 VQA 数据,以及多个数据集(如 COCO、GQA 等),通过微调优化模型对多模态指令的响应能力。整个训练过程需要大量计算资源,建议使用 8 个 A100 GPU,并提供了内存优化和参数调整的策略。此外,还详细说明了如何使用自定义数据集进行微调,包括数据格式化和训练脚本的修改。微调后的模型应使用 wandb 进行性能评估,以确保模型的高效和准确性。
大模型日报(5月23日 学术篇)https://zhuanlan.zhihu.com/p/698218006?utm_psn=1776623143408787456
03

GPU深度学习性能的三驾马车:Tensor Core、内存带宽与内存层次结构

GPU 深度学习性能关键依赖于 Tensor Core、内存带宽和内存层次结构。Tensor Core 能显著加速矩阵乘法运算,这在深度学习中尤为重要。例如,在没有 Tensor Core 的情况下,32×32 矩阵乘法需要 504 个周期,而使用 Tensor Core 后只需 235 个周期,性能提升显著。RTX 30/RTX 40 系列的异步拷贝和 H100 的 TMA 技术进一步优化了数据传输,减少了内存访问延迟。内存带宽对于 Tensor Core 的充分利用至关重要,因为张量计算核心需要快速获取数据。GPU 的内存层次结构,包括二级缓存、共享内存、一级缓存和寄存器,对于提高数据访问速度和计算效率至关重要。Ada 架构的 GPU 拥有更大的二级缓存,能够更高效地处理大型模型,如 BERT large,提升了矩阵乘法运算速度。通过合理利用这些技术细节,可以选择和使用最适合深度学习任务的 GPU,从而获得最优的训练和推理性能。
大模型日报(5月23日 学术篇)https://zhuanlan.zhihu.com/p/669987669?utm_psn=1776651110843301888
04

多核之后,CPU 的发展方向是什么?

在多核时代之后,CPU 发展的关键技术包括异构计算、特化处理器、三维堆叠技术、光电子学与量子计算的应用、以及能效优先的设计理念。异构计算通过集成不同类型的核心,提高处理各种任务的效率。特化处理器针对特定应用如人工智能,进行定制化设计。三维堆叠技术有助于提升性能与能效,降低延迟。光电子学与量子计算的探索,开启了计算速度的新境界。能效优先考虑到移动与云计算的需求,成为设计重点。此外,软件与硬件的协同优化,进一步挖掘了性能潜能。这些技术细节的发展,共同推动了 CPU 向更高性能和更低能耗的进步。
大模型日报(5月23日 学术篇)https://www.zhihu.com/question/20809971/answer/1678502542?utm_psn=1776935387489312768
05

Pytorch 显存管理机制与显存占用分析方法

PyTorch 显存管理机制采用动态申请与二次分配策略,通过 cudaMalloc 从 GPU 申请显存块 Segment,并将其分离为子块 Block 进行使用。显存的释放依赖于 torch.cuda.empty_cache() 调用,该调用会释放未分配的 Segment。PyTorch 提供了多种显存占用分析方法,包括内置 API、Snapshot 功能、nvidia-smi 工具和 torch.cuda.mem_get_info 函数,以帮助开发者监控和优化显存使用。Snapshot 功能能够记录 CUDA allocator 的显存消耗、调用堆栈和时间线,生成 .pickle 文件供分析。文章还提供了一个全连接网络训练的示例代码,展示了如何在训练过程中使用这些工具进行显存分析。通过这些方法,开发者可以更好地理解和管理 PyTorch 应用中的显存使用,从而提高 GPU 资源的利用率。
大模型日报(5月23日 学术篇)https://zhuanlan.zhihu.com/p/699254132?utm_psn=1776938336575778818
06

用 Coze(扣子) 打造浏览器书签助手(上)

本文详细介绍了利用扣子 (Coze) 平台打造一个高效浏览器书签助手的技术实现过程。通过多 Agents 模式,Bot 能够灵活地组合和协作,实现复杂的功能。记忆变量和长期记忆功能则使 Bot 能够存储和利用用户数据,提供个性化服务。触发器功能让 Bot 能够根据时间或事件自动运行任务。快捷指令简化了用户操作,提升了交互体验。在技术细节上,文章描述了如何通过异步请求和代理处理书签提取、数据清洗,以及如何使用大模型进行书签分类和检索。最终,通过整合这些技术,构建了一个能够通过指令整理和检索书签的 Bot,显著提高了用户处理书签的效率。
大模型日报(5月23日 学术篇)https://mp.weixin.qq.com/s/4RH6C-M7zzd_6-34lhMwfQ
HuggingFace&Github

01

CogVLM2

CogVLM2 是一个新一代的开源多模态语言模型系列,相较于上一代有了显著的性能提升。CogVLM2支持更长的文本长度和更高分辨率的图像,并提供了中英双语的版本。其在多个基准测试中的成绩超过了许多非开源的同类模型,体现出了优异的能力。CogVLM2提供了基础使用教程和微调示例,帮助开发者快速上手。
大模型日报(5月23日 学术篇)
https://github.com/THUDM/CogVLM2
02

Khoj

Khoj 是一款创建永久可用的个人 AI 助手应用程序,用户可以将笔记和文档共享给 AI 助手,由此扩展自己的数字大脑。该AI助手可以访问互联网获取最新信息,并支持在多种平台使用,同时提供快速准确的语义搜索功能。此外,Khoj 的 AI 助手还能创造个性化图像和理解用户语音,整个项目是开源且可以自行搭建的。
大模型日报(5月23日 学术篇)https://github.com/khoj-ai/khoj
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15187.html

Like (0)
Previous 2024-05-23 15:56
Next 2024-05-24 10:46

相关推荐