大模型日报(5月18~19日 学术篇)

特别活动

大模型日报(5月18~19日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月18~19日 学术篇)

学习

01

[Prefill优化]🔥图解vLLM Prefix Prefill Triton Kernel

文章强调了在使用 Prefix Caching 后,需要特别设计的 Kernel 来处理 Attention 计算。该 Kernel 采用了 Tiling 分块策略,以优化内存访问和计算效率。文章详细说明了 Kernel 的调用逻辑,并提供了单元测试的方法来验证其实现。此外,文章还讨论了如何支持非 2 的幂次的 head size 和 MQA/GQA 模型,以及如何通过源码解析来深入理解 Kernel 的工作原理。特别是,对于 Prefix Cache 命中率的监控和优化,文章提供了一种临时的检测方法。通过这些技术细节的深入分析,文章展示了如何提升大型语言模型在推理阶段的性能。
大模型日报(5月18~19日 学术篇)https://zhuanlan.zhihu.com/p/695799736?utm_psn=1775574559254786048
02

[并行训练]Context Parallelism的原理与代码浅析

Context Parallelism(CP)是对序列并行性的一种实现,用于解决 Self-attention 模块计算在序列维度上并行的问题。CP 主要有两个关键点:使用 Flash-attention2 进行分块运算并对结果进行修正,以及使用 ring 的方式在设备之间传递 KV 值以获得分块运算的结果。CP 功能可能需要进行一些迭代来完善,本文主要介绍其原理。
大模型日报(5月18~19日 学术篇)https://zhuanlan.zhihu.com/p/698447429?utm_psn=1775574311425835008
03

聊聊大模型推理服务之长上下文

本文综述了大模型推理服务中长上下文问题的最新研究进展。首先,探讨了加速方法,包括通过近似算法减少计算量,以及通过并行计算和内存管理提高效率。其次,针对长上下文处理,提出了使用更长训练序列和修改位置编码系统的方法,特别是对 RoPE 位置编码的优化,以减少其对长距离令牌的衰减效应。并行加速类方法中,Ring Attention 和 DeepSpeed Ulysses 通过硬件优化实现了超长上下文的计算。LoongServe 则提出了序列并行方式,以适应不同资源使用。在调整 Attention 算法类,HyperAttention 通过稀疏化方法实现了长上下文注意力计算的加速。训练调整类方法 LongLoRA 结合了 LoRA 技术,通过稀疏局部注意力进行了有效的模型微调。文章强调了训练和推理过程的紧密耦合,并通过对这些技术的深入分析,展望了大模型推理服务的优化方向。
大模型日报(5月18~19日 学术篇)https://zhuanlan.zhihu.com/p/698138500?utm_psn=1775574499179814912
04

ICRA 2024:「具身智能」热度飙升,「学习」成机器人行业共识

ICRA 2024会议展示了机器人领域最新进展,主题为「CONNECT+」,共收到3937篇论文,覆盖双足机器人、人机交互、机器人学习等。会议凸显了中国机器人企业的崛起,如宇树科技发布高性价比人形机器人。具身智能成为热议话题,强调机器人与AI结合进行环境交互和智能决策。尽管大模型(LLM)在机器人领域的应用尚少,但电机驱动的机器人和基于学习的方法正成为新趋势,预示着机器人技术向具身智能的转变。
大模型日报(5月18~19日 学术篇)https://mp.weixin.qq.com/s/0QSeIB0B6nAwOhS-FfX3rw
05

一些基础模型老 paper 阅读 (ResNext, RegNet, ACNet, RepVGG, RepSR, DBB, OREPA, NAFNet)

本文是一篇关于基础模型的论文阅读,包括 ResNext、RegNet、ACNet、RepVGG、RepSR、DBB、OREPA 和 NAFNet 等模型。ResNext 是一个由 Kaiming 等人提出的模型,它将网络分成两组,发现一组倾向于学习黑白的信息,而另一组倾向于学习彩色的信息。RegNet 是一个由 Ilija 和 Kaiming 提出的模型,它总结了一种新的模型设计范式,即设计一个好的搜索空间,在里面随机采出的一簇模型平均性能都很好。ACNet 是一个提出了不对称的训练 – 推理方法的模型,实现了推理时免费涨点。RepVGG 是一个提出了结构重参数化的概念的模型,它可以让 VGG-like 的结构达到 ResNet 的性能。RepSR 是一个研究了一些小问题的模型,即 low-level 以往大家观察到加 BN 就掉点。DBB 是一个训练的时候 inception,推理的时候变成 conv 或 resnet 的模型。OREPA 是一个证明了带有 scaling 的多分支卷积不会退化成单个卷积的模型。NAFNet 是一个提出了一个图像修复的简单基线模型的模型,核心是带 layernorm 的深层模型和本文提出的非线性无激活组件。
大模型日报(5月18~19日 学术篇)https://zhuanlan.zhihu.com/p/697225500?utm_psn=1775100263806107648
06

NVIDIA TensorRT 10.0升级-可用性、性能和AI模型支持

NVIDIA TensorRT 10.0 是一套用于高性能深度学习推理的 API 生态系统,提供低延迟和高吞吐量。TensorRT 10.0 的入门使用变得更加简单,支持使用 apt-get install tensorrt 或 pip install tensorrt 安装所有相关的 TensorRT C++ 或 Python 库。此外,TensorRT 10.0 还支持使用 INT4 进行权重压缩,并且引入了权重剥离引擎和权重流处理,简化了将较大模型部署到较小 GPU 的过程。同时,TensorRT 10.0 还包括 NVIDIA TensorRT 模型优化器,这是一个新的全面的后训练和训练循环中的模型优化库。TensorRT 10.0 还引入了对 Nsight Deep Learning Designer 的支持,用于分析和构建引擎。
大模型日报(5月18~19日 学术篇)https://zhuanlan.zhihu.com/p/698285524?utm_psn=1775100526424059905
07

如何提升大模型RAG系统的效果?RAG框架 and 落地选型 (一)

文章讨论了与RAG框架相关的各种技术细节和优化策略。主要观点包括RAG框架的实际实施,如查询重写技术(如PE/HyDE/LLM ReRank)、工业部署考虑因素(如意图分流和领域特定的BGE)、以及增量预训练相对于微调或RAG的重要性。文章还涵盖了RAG框架的不同变体,包括Naive RAG、Advanced RAG和Modular RAG,强调了迭代优化的重要性。此外,文章还深入探讨了解决内容缺失、top-k文档省略和推理能力等方面的高级RAG方法。文章最后讨论了在不同背景下实施RAG的实际方法,如意图识别、检索和排名生成,并提供了进一步探索的参考和资源。
大模型日报(5月18~19日 学术篇)https://mp.weixin.qq.com/s/iA25u3KxSCzAAdmRIb-QlQ
HuggingFace&Github

01

ViLA

VILA是一个强大的视觉语言模型(VLM),它利用大规模的交错图像-文本预训练数据,实现了视频理解和多图像理解能力,同时还具有出色的上下文学习能力和融合文本指令数据的优势,不仅在视觉语言理解任务上表现出色,在纯文本任务上也有出色表现。VILA可以通过 AWQ 4位量化和 TinyChat 框架高效部署在边缘设备上,展现了包括视频推理、视觉思维链等功能。
大模型日报(5月18~19日 学术篇)
大模型日报(5月18~19日 学术篇)https://github.com/Efficient-Large-Model/VILA
02

BlobGen

英伟达团队开发了一个基于 blob 的文本到图像扩散模型,称为 BlobGEN。它在现有的扩散模型(如Stable Diffusion)的基础上,利用blob表示作为输入进行引导生成。BlobGEN引入了一个新的”掩蔽交叉注意力”模块,用于分离blob表示和视觉特征的融合,使blob引导过程更加模块化和独立。实验结果表明,BlobGEN在零shot生成质量和布局引导可控性方面表现优秀。当结合大型语言模型时,它在组合式图像生成基准测试中也展现出出色的数值和空间正确性。
大模型日报(5月18~19日 学术篇)https://blobgen-2d.github.io/
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15310.html

Like (0)
Previous 2024-05-18 09:06
Next 2024-05-20 07:04

相关推荐