大模型日报(7月4日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(7月4日 学术篇)

学习

01

AI让全球GDP翻10倍!但风险比核问题还严峻,三大图灵奖大佬对话,WAIC干货看尽

2024 年世界人工智能大会(WAIC)在上海举行,吸引了众多产学研领域的大咖。开幕式上,原微软执行副总裁、美国国家工程院外籍院士沈向洋主持了三位图灵奖得主的对话。罗杰・瑞迪认为 AI 的风险应得到高度关注,但不能因此放弃 AI 的发展,并强调教育体系需要更新以适应 AI 时代。曼纽尔・布卢姆介绍了他的团队创立的意识图灵机(CTM)模型,认为 AI 的意识模型可以类比于大脑的神经元活动。姚期智则对 AI 的风险表示警觉,认为 AI 的风险比核问题更严峻,需要全球专家共同探讨如何控制 AI 避免重大破坏。清华大学苏世民书院院长薛澜讨论了 AI 治理的重要议题,并提到 AI 发展面临的技术和治理鸿沟。上海 AI 实验室主任周伯文提出了 AI 的 45 度平衡律,强调 AI 性能与安全的平衡。新思科技 CEO 盖思新分享了如何利用 AI 减少能耗和缓解人才紧缺。黑石集团董事长苏世民和索奈顾问乔舒亚・雷默进行了全球治理的高端对话,讨论了 AI 如何改变企业价值认定和投资决策过程。最后,文章指出 AI 的快速发展带来了风险管控的重要性,期待在安全可信的指导下,AGI 能够得到进一步的发展。
大模型日报(7月4日 学术篇)https://mp.weixin.qq.com/s/zg-tfuymuFYprAF4wRzcjQ
02

聊聊大模型推理中的分离式推理

分离式推理技术是大模型推理优化的关键方法之一,它通过将大型深度学习模型拆分为多个较小的子模型,实现在有限资源下的高效并行计算。这种方法的核心在于保持原始模型的准确性,同时显著降低计算成本和推理时间。技术细节上,分离式推理利用模型的层次结构,通过在某些层次上 “切断” 连接,形成独立的子模型,这些子模型可以分布在不同的计算设备上同时执行。在推理过程中,输入数据在子模型之间传递,最终汇总每个子模型的输出以得到最终结果。这种技术对于实时或者资源受限的应用场景具有重要意义,尤其是在边缘计算和移动设备上的 AI 模型部署中。
大模型日报(7月4日 学术篇)https://zhuanlan.zhihu.com/p/706469785?utm_psn=1791942179708616705
03

大模型推理分离架构五虎上将

本文首先介绍了 DistServe,这是一种开源的大模型推理分离架构,它通过分离预填充和生成阶段,减少了任务处理时间(TTFT)和平均处理时间(TPOT),同时提高了资源利用率和并行性。接着,文章讨论了 Splitwise,它通过实验得出了多个洞察,如推理服务的提示和标记分布差异、批处理中的令牌处理时间等,以优化推理过程。TetriInfer 提出了更为全面的系统架构,包括控制平面和全局调度器,以及引入了 ChunkAttention 方法和长度预测模块,以实现更高效的推理。MemServe 则在分离式架构基础上支持了 Context Caching,通过设计 Elastic Memory Pool 来优化请求间的推理过程。最后,Mooncake 综合了多种技术,如 ChunkAttention、请求间的 prompt 共享和序列并行,以提供更全面的推理解决方案。文章最后指出,目前已发现的关于分离式架构的文献有这五篇,并表示将继续关注并更新这一领域的最新研究。
大模型日报(7月4日 学术篇)https://zhuanlan.zhihu.com/p/706218732
04

为Token-level流水并行找PMF:从TeraPipe,Seq1F1B,HPipe到PipeFusion

本文首先提到了大模型的长序列处理能力的提升是当前研究的热点,尤其是在训练和推理过程中面临的工程挑战。作者方佳瑞介绍了 Token-level 流水线并行技术,这一技术沿序列维度进行并行切分,最早由 Zhuohan Li 等人在 2021 年提出。文章详细讨论了四种技术:
  1. TeraPipe:由 UC Berkeley 的 Ion Stoica 团队提出,它将模型沿层切分成多个阶段,并通过动态规划优化序列切分,以实现负载均衡。
  2. Seq1F1B:结合了 TeraPipe 和 1F1B 的方法,同时切分 Batch 和序列,减少了执行时间和内存消耗。它通过 FLOPs 估计来实现负载均衡,而非实际运行采集。
  3. HPipe:在 NACCL 2024 上发表的工作,将 TeraPipe 的方法扩展到异构设备上的推理任务,并考虑了通信开销。
  4. PipeFusion:由方佳瑞团队提出,这是一种针对 DiT 扩散模型的并行推理方法,利用了 Diffusion Model 的特性,避免了 Causal Mask 带来的负载均衡问题。
最后,文章总结了这些技术在大模型中的应用,并强调了 PipeFusion 在 Diffusion Model 推理中的创新性和实用性。
大模型日报(7月4日 学术篇)https://zhuanlan.zhihu.com/p/706475158?utm_psn=1791489494618349568
05

将 MOE 塞到 LoRA: 一篇文章的诞生

Taki 在文章中详细介绍了他的研究思路和论文的创作过程。文章开始时提到了之前的研究尝试将 LoRA 和 MoE 结合,但这些方法存在动机不足、合并性差和训练速度慢的问题。Taki 通过与同事的讨论,提出了一种新颖的想法,将 MoE 的概念应用到 LoRA 中,通过去除 Gate 机制并引入混合矩阵,设计了一个简单且有效的模型结构。这种结构不仅保留了 LoRA 的优点,如可合并性和推理时的 0 延迟,而且通过将 LoRA 的参数量增加到 r/k,使得模型在训练时更加高效。文章还探讨了从多头注意力的视角出发,如何将 rank 和输入维度 d 进行拆分,以及如何通过引入可学习的 Mixer 矩阵来进一步提升模型性能。最终,Taki 提出了 MoSLoRA 方法,该方法通过使 Mixer 矩阵的所有元素都可学习,提高了模型的表达能力。文章还指出,这种方法与 AdaLoRA 相似,但又有所不同,并且提到了其他相关研究,如 FLoRA。在后记中,Taki 总结了整个思维推进过程,强调了论文写作中的简洁和易理解性。
大模型日报(7月4日 学术篇)https://zhuanlan.zhihu.com/p/704761512
06

分离式推理架构1,从DistServe谈起

文章深入探讨了大模型推理过程中的计算瓶颈及优化策略。作者从 DistServe 的设计理念出发,阐述了分离式推理架构如何通过将模型分解为多个子模型,有效地提升计算效率和内存利用率。技术细节上,文章强调了分离式架构在数据并行和模型并行中的应用,以及如何通过精细的计算调度和通信优化来减少系统开销。此外,文章还分析了分离式推理在实际应用中的性能提升,并对其在未来深度学习模型推理中的潜在发展方向进行了展望。总体而言,本文突 lights 了分离式推理架构作为一种高效的大模型推理解决方案,在提高系统性能和降低资源消耗方面的技术创新。
大模型日报(7月4日 学术篇)https://zhuanlan.zhihu.com/p/706761664
07

由Ring-Attention性能问题引发的计算通信overlap分析

文章深入探讨了 Ring-Attention 机制在大规模数据处理时的性能瓶颈,指出计算与通信的 serialized 执行导致资源利用率低下。为了解决这一问题,提出了计算通信 overlap 策略,通过并行化计算和通信操作,减少了冗余等待时间,从而提升了系统性能。技术细节上,文章探讨了非阻塞通信、数据预取和缓存优化等方法,并分析了这些方法在不同硬件平台上的实现考量。作者认为,通过精细化的算法调整和系统级优化,可以有效实现计算通信 overlap,为未来硬件平台的性能提升奠定了基础。
大模型日报(7月4日 学术篇)https://zhuanlan.zhihu.com/p/706805407?utm_psn=1791944339200544770
08

为AI供电-超万卡GPU算力集群的算电协同与零碳发展

随着 AI 大模型的不断发展,GPU 算力集群的规模迅速扩张至万卡甚至十万卡级别,这对能源消耗提出了更高的要求。为了实现算电协同与零碳发展,文章提出了从优化计算效率、降低软硬件能耗、提升集群利用率、增加可再生能源使用到算电双向优化调度等多方面的措施。例如,采用 MoE 技术和 Decoder-Decoder 架构如 YOCO,可以显著提高模型的计算效率。同时,推动源网荷储一体化、绿电市场交易和核电技术的探索,以及通过直流供电技术减少能耗损耗,都是实现零碳目标的关键技术细节。政策的支持和引导,结合技术创新和产业实践,将是推动 GPU 算力集群绿色转型的重要途径。
大模型日报(7月4日 学术篇)https://mp.weixin.qq.com/s/TjPLLGBV1GqLCj8FZ8mASg
HuggingFace&Github

01

Openvid

南京大学,南开大学和字节跳动团队一起提出了一种新的用于文本到视频生成的模型 – Multi-modal Video Diffusion Transformer (MVDiT)。MVDiT 能够从视觉和文本 tokens 中分别提取结构信息和语义信息,从而更好地利用文本信息进行视频生成。
此外,还介绍了一个新的高质量文本-视频数据集 OpenVid-1M,包含超过 100 万个高质量的文本-视频对。基于 OpenVid-1M,文章还创建了更高清的 OpenVidHD-0.4M 数据集。
实验结果表明,MVDiT 在文本到视频生成任务上取得了优异的性能,这得益于新提出的数据集的支持。
大模型日报(7月4日 学术篇)https://nju-pcalab.github.io/projects/openvid/
02

fish-speech

这是一个基于 VITS 的全新 TTS 解决方案。现阶段支持的语言:汉语,英语,日语
Bilibili Demo :【Fish Speech 1.2 – 开源语音合成不止于自然】https://www.bilibili.com/video/BV1wz421B71D/?share_source=copy_web&vd_source=e62205e024b028c0d6f253c001a5003a
大模型日报(7月4日 学术篇)https://github.com/fishaudio/fish-speech
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/07/14302.html

Like (0)
Previous 2024-07-04 17:52
Next 2024-07-05 11:17

相关推荐