大模型日报(8月7日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(8月7日 学术篇)

学习

01

如何优雅地测量GPU CUDA Kernel耗时?

本文详细介绍了在 CUDA 编程中测量 GPU 核函数(Kernel)耗时的方法。作者首先指出了 GPU 和 CPU 耗时测量的差异,解释了 GPU 的异步执行逻辑,并通过示例代码演示了如何测量核函数的启动时间和实际执行时间。文章继而推荐了两种测量手段:Nsight System 和 CudaEvent。Nsight System 是 NVIDIA 提供的可视化工具,能够直观地展示每个核函数的执行耗时和启动器的时间。而 CudaEvent 通过一系列 API(如 cudaEventCreatecudaEventRecordcudaEventSynchronizecudaEventElapsedTimecudaEventDestroy),允许开发者更精确地测量指定核函数的执行时间,并提供了统计信息如平均时间、中位数和分布等。最后,作者还提到了其他工具如 NCU,并强调了在实际应用中选择合适的测量方法的重要性。
大模型日报(8月7日 学术篇)https://zhuanlan.zhihu.com/p/712660021?utm_psn=1804173156463808514
02

如何把 PyTorch 的 GPU 利用率提升到 100% ?

文章首先指出,GPU 作为一种稀缺且昂贵的资源,需要被充分利用以提高计算效率和速度。 GPU 利用率的衡量方式通常是指 GPU 上有计算和图形活动的时间占总运行时间的比例,而 GPU 利用率不足 100% 意味着 GPU 在程序运行时有空闲状态。 测量 GPU 利用率可以通过 nvidia-smi dmon、NVIDIA Nsight Systems (NSYS)、NVIDIA Data Center GPU Manager (DCGM) 和 NVIDIA Management Library (NVML) 等多种方式。
在适用场景方面,文章通过使用 NGC PyTorch 23.09 和 Stable Diffusion 模型进行测试,展示了不同软硬件配置和应用程序特性下 GPU 利用率的差异。 结果表明,软硬件系统和应用程序配置不同,GPU 利用率通常会有较大差异,受到系统硬件配置、GPU 上负载的大小和应用程序特性的影响。
文章进一步分析了 GPU 利用率低的根本原因,认为是由于 CPU 与 GPU 不协调,即 CPU 负载过多或 GPU 负载过少,以及 CPU 在准备运行时环境时导致 GPU 等待。
为了解决 GPU 利用率低的问题,文章提出了一系列解决方案,包括硬件升级、增加 GPU 负载和降低 CPU 负载等。 增加 GPU 负载的方法包括增加每个 GPU 上的 batch size、共享 GPU 等;降低 CPU 负载的方法则包括预处理 / 缓存、多线程、CPU 与 GPU 流水线、迁移到 GPU 上、减少 CUDA kernel 数目、消除 CPU 与 GPU 之间的同步以及使用 CUDA Graph 等。
https://fkong.tech/posts/2023-11-19-torch-gpu-util/
03

torch原生——tensor并行&张量并行(附带MLP例子)

在 PyTorch 2.3 版本中,引入了torch.distributed.tensor.parallel模块,专门用于张量并行。核心函数parallize_module负责将模型并行化。并行化方法通过设置不同的ParallelStyle来定义,包括ColwiseParallelRowwiseParallel两种主要的张量并行方式,以及SequenceParallelPrepareModuleInputPrepareModuleOutput等。这些并行策略需要指定参数、输入和输出的处理方式,即Placement,包括ShardReplicate_Partial三种方法。通过一个 MLP 的例子,文章展示了如何将nn.Linear层的参数沿列或行分割,以及如何在多个 GPU 上复制模型或进行维度对齐。此外,文章还强调了并行训练过程中的关键点,如梯度累积、通信开销和内存使 AGE,以及如何使用torch.cuda.memory_allocated()来监控内存使用情况。
大模型日报(8月7日 学术篇)https://zhuanlan.zhihu.com/p/707711038?utm_psn=1804464555071528960
04

使用 vLLM 为多个 LoRA 适配器提供服务

文章探讨了使用 vLLM 技术为多个 LoRA 适配器提供服务的方法。LoRA 适配器通过在预训练模型中引入低秩矩阵进行微调,能够快速适应新任务。vLLM 通过虚拟化技术,使得单一模型能够支持多个 LoRA 适配器,从而在保持模型轻量级的同时提升了其在多任务处理上的能力。这种方法减少了内存和计算资源的消耗,尤其对于大规模模型的部署具有重要意义。
https://zhuanlan.zhihu.com/p/712668798?utm_psn=1804465132673298432
05

[2024智源大会速览] 视频生成篇

2024 智源大会视频生成篇聚焦了 AI 在视频制作领域的应用前沿。Aditya Ramesh 从 OpenAI 介绍了从图生文到文生图的发展脉络,强调了语言智能在视觉智能中的作用。万鹏飞从快手提出的可灵视频生成大模型中,展示了 3D 时空注意力机制和 Scaling Law 的应用,实现了分辨率高、运动合理的视频生成。王长虎从爱诗科技角度探讨了 Character2Video 和 MagicBrush 技术,提出了基于 adapter 方法和 RL 的 PPO 模块来提升视频生成的保真度和美学质量。卢志武教授从人民大学视角分析了视频生成的两种范式,即基于图片 SD 模型的时序关系建模和直接全局生成的方法。鲍凡从生数科技介绍了 Vidu 及其在 4D 视频生成中的应用,以及如何通过 DGS 方法进行 3D 场景的重建和优化。SVD 方法介绍了其在 Large Video Dataset (VLD) 建设、Temporal Video Fine-Tuning 和 Generate High Frame & High Resolution Video 方面的技术创新。Sora 方法通过 NaViT 技术支持原分辨率训练,实现了长视频的连贯性和高效率生成。
大模型日报(8月7日 学术篇)https://zhuanlan.zhihu.com/p/713143946?utm_psn=1804435630656192512
06

大模型分不清 9.9 与 9.11 谁大,那 Embedding 模型呢?

本文由肖涵从 Jina AI 撰写,探讨了大型语言模型在数字比较任务中的挑战。通过对jina-embeddings-v2-base-enjina-reranker-v2-multilingual模型进行的实验,文章评估了它们在不同数字比较场景下的性能,包括小数、货币、日期和时间等。实验采用余弦相似度和相关性得分作为评价指标,结果显示 Embedding 模型在简单数字比较中表现较好,但在复杂数值区间或浮点数比较时效果下降。Reranker 模型在这些任务中的表现不稳定,尤其是在处理大数字和随机数字范围时。文章指出,分词策略和训练数据对模型的数值推理能力有重要影响,并强调了这种能力对于提升搜索质量的重要性。特别是在处理结构化数据如 JSON 时,模型的算术能力至关重要。
大模型日报(8月7日 学术篇)https://mp.weixin.qq.com/s/wIm3loi5KcznFYTpgIl-Dg
HuggingFace&Github

01

MiniCPM-V-2_6

MiniCPM-V 2.6 是一款强大的多模态模型,基于 80 亿参数,具备卓越的单图像、多图像和视频理解能力。它在多个基准测试中表现优异,具有强大的 OCR 功能和高效的推理性能,支持多种使用方式,适合在本地设备上进行实时应用。
大模型日报(8月7日 学术篇)https://huggingface.co/openbmb/MiniCPM-V-2_6
02

VidGen-1M

VidGen-1M 是一个用于文本到视频模型训练的高质量数据集。它通过粗到细的策划策略生成,确保视频质量高、字幕详细且具有良好的时间一致性。与当前常用的数据集相比,VidGen-1M 解决了低时间一致性、字幕质量差、视频质量不佳和数据分布不均等问题,从而为文本到视频模型提供了更合适的训练数据。这使得使用该数据集训练的视频生成模型在实验结果上超过了其他模型。
大模型日报(8月7日 学术篇)https://sais-fuxi.github.io/projects/vidgen-1m/
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/08/13798.html

Like (0)
Previous 2024-08-07 10:15
Next 2024-08-07 23:59

相关推荐

  • 使用GPTZero反制AI(ChatGPT)生成的内容?看这一篇就够了!

    你的文章是不是AI生成的,GPTZero一看便知?AI应用的攻防大战,才刚刚开始! 这款应用,我相信,老师或者老板们有多爱它,学生或者搬砖者们就有多恨它~ 在你刚认为自己已经将AI…

    2023-05-03
    198
  • 大模型日报(5月27日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-27
    148
  • 读博之路 | 找博导 只需三步,快速找到自己中意的博导!

    套磁是申请博士的必经之路,那么套磁之前,找到符合自己研究方向的导师至关重要,不然,你套磁信写给谁呢~ Photograph: Hannah Slack 由于最近受一位小学妹之托(实…

    2023-10-31
    215
  • #资源分享 机器学习

    近期参加了几个Google的会议,顺便分享几个不错的资源: 1. 如何与机器学习做朋友,很适合入门,通俗易懂;对其中拿小金人和数据集做比较,烹饪和类比机器学习的流程,印象深刻。 2…

    2022-12-12
    219
  • 大模型日报(7月10日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-10
    246
  • 大模型日报(5月17日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-17
    145
  • 大模型日报(6月18日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-18
    159
  • 大模型日报(5月28日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-28
    165
  • 导师交流心得 关于Introduction

    坐在咖啡馆,做个小笔记 第一篇打算投稿的文章写得七七八八,发给导师之后,以为能够得到详实具体的反馈建议,结果老板说有点“为难他”,于是我晚上主动拉了个会议,想一探究竟我干了什么“为…

    2022-07-20
    219
  • AI学术 | Research Rabbit 5分钟挖掘研究领域的文献和作者网络

    通过Research Rabbit (RR),只需要5分钟,即可快速挖掘和追踪你研究领域的文献和作者网络,最为关键的是,这个由AI驱动的工具,持续免费! 想象一下不断反复的场景,当…

    2023-07-03
    1.3K