大模型日报(5月31日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月31日 学术篇)

学习

01

高能力全透明双语大语言模型MAP-Neo完全开源

  1. 数据处理pipeline:提供了预训练数据(包括OCR处理)、去重和基于Spark的分布式数据处理支持。

  2. 训练数据:使用4.5T高质量tokens进行训练,提供了详细的预训练语料库和训练代码。

  3. 模型架构和训练:包括分词器、基础模型和对齐模型的训练代码,解决了Megatron-LM框架的问题,支持大规模预训练。

  4. 模型Checkpoint:发布了中间Checkpoint,确保重现性。

  5. 评估和优化:提供了详细的评估代码和优化技巧。

MAP-Neo的开源为LLM研究提供了重要参考,特别是对非英语地区的研究者。

大模型日报(5月31日 学术篇)https://mp.weixin.qq.com/s/hKdufVyzAhxFKFIScT9YQA

02

如何高效实现矩阵乘?

文章主要介绍了如何从 CUDA 初学者的角度出发,高效实现大规模正方形 FP32 矩阵乘的优化过程。首先,明确了目标是实现比 cublas 更快的矩阵乘,并通过理论分析确定合理的矩阵分块与排布方法。性能测试显示,手写的矩阵乘能够达到硬件 95% 的峰值性能。在代码实现方面,详细讨论了朴素的 GEMM 实现、矩阵分块(Tiling)、Thread、Warp 和 Block 级优化。具体到技术细节,提到了使用 shared memory 来减少全局内存交互,以及如何通过向量外积和 double buffer 技术来优化线程级计算。此外,还探讨了如何通过 Warp Tiling 和向量化访存来提高并行计算效率,并避免 bank conflict。在 Block 级优化中,关注了 L2 cache 的命中率和波形(Wave)的影响。最后,作者指出了未来优化方向,包括 split K、长尾问题和分块细调等。整个优化过程强调了理论与实践相结合,并且利用 Nsight Compute 等性能分析工具对优化效果进行了验证。
大模型日报(5月31日 学术篇)https://mp.weixin.qq.com/s/3WgIpmZarlNIWj0rsEH17w
03

大模型训练优化:论反向传播中序列并行和张量并行的通信计算重叠方法

本文深入探讨了大模型训练中的并行技术,特别是在张量并行和序列并行中实现通信计算重叠的方法。在张量并行中,通过优化 FFN 和 Attention 层的通信计算顺序,减少了内存占用和提高了计算效率。序列并行方面,文章提出了一种适用于 DeepSpeed-Ulysses 的通信计算重叠策略,显著降低了通信开销。此外,文章还讨论了序列并行实践中的挑战,如 Ring-Attention 的优化实现、大规模 Ring-Attention 的通信优化以及 USP+ZeRO3+Offload 的实现问题。作者强调通信计算重叠对于提升大模型训练效率的重要性,并呼吁行业内对序列并行技术进行更多探索和实践。
大模型日报(5月31日 学术篇)https://zhuanlan.zhihu.com/p/700639611?utm_psn=1779569304334897152
04

我们的AI语音代理论题

网页内容揭示了 AI 语音助手技术的最新发展及其在商业和消费者领域的应用趋势。AI 语音助手利用自然语言处理(NLP)、大型语言模型(LLM)和文本到语音(TTS)技术,能够模拟人类对话,为用户提供服务。随着多模态模型的兴起,技术栈可能会整合,降低延迟和成本,提升用户体验。在 B2B 领域,AI 语音助手正逐步替代传统电话树系统,提供更高效、准确的客户服务解决方案,尤其在特定行业中,通过深度定制化服务,满足复杂的通话需求。而在 B2C 市场,AI 语音助手正开始提供之前需要人类提供的服务,如心理咨询等,并有潜力创造全新的用户互动方式。文章强调,成功的 AI 语音助手产品需要专注于技术细节,如对话流程的精细化处理、情感识别能力的提升,以及针对特定用户场景的定制化开发。这些技术细节的打磨,将是 AI 语音助手在未来市场中取得成功的关键。
大模型日报(5月31日 学术篇)https://a16z.com/ai-voice-agents/
05

Pytorch 显存管理机制与显存占用分析方法

PyTorch 显存管理机制采用动态申请与二次分配的策略,通过 cudaMalloc 从 GPU 申请显存块(Segment),并在其中划分出子块(Block)进行使用。显存管理器根据 tensor 的大小,将 Block 分配到 large pool 或 small pool,以优化显存使用。PyTorch 提供了 API 如 torch.cuda.memory_allocatedtorch.cuda.memory_reserved 来监控显存占用。Snapshot 工具可以记录显存消耗的历史和时间线,帮助开发者分析和优化显存使用。nvidia-smi 虽然可以显示 GPU 显存占用,但刷新频率低,不适合实时监控。torch.cuda.mem_get_info 可以查询指定 GPU 的可用显存量。文章最后通过一个全连接网络的训练示例,展示了如何在实际操作中应用这些工具和方法,以及如何通过断言来确保显存使用的正确性和效率。
大模型日报(5月31日 学术篇)https://zhuanlan.zhihu.com/p/699254132
06

NVIDIA AI 芯片演进解读与推演

NVIDIA 的 GB200 超级芯片采用双 Die 设计,具备 20 PFLOPS 的 FP4 算力,与前代 H100 相比,晶体管数量增加了一倍,算力提升了 5 倍。GB200 通过 NVLink、InfiniBand 和 Ethernet 三种网络技术实现互联,其中 NVLink 作为专有技术,演进速度最快,适用于 GPU 直连互联。GB200 NVL72 系统采用背板电缆互联,实现了高效的算力扩展,但面临高功耗和散热挑战。未来 AI 芯片发展可能面临的挑战包括算力提升受限于工艺演进、存储技术的发展与 GPU 演进同步问题,以及机框间互联技术成本和功耗的挑战。SuperPOD 超级节点的商业化需要降低 Rack-to-Rack 互联成本。NVLink、InfiniBand 和 Ethernet 三种网络技术在未来不太可能融合,各自在特定应用场景中具有不同的优势和发展方向。
大模型日报(5月31日 学术篇)https://mp.weixin.qq.com/s/PQL1popiYarfXpiALlhHcw
07

半导体真空零部件

半导体真空零部件在芯片制造中起着关键作用,它们包括真空泵、真空阀门和真空测量仪器等,确保了芯片生产过程中的高度纯净和精确控制。目前,全球市场规模呈现增长趋势,但技术门槛高,尤其是在芯片制造的关键环节,如极 ultraviolet lithography(EUV)技术中的超高真空要求。国内企业虽然在技术积累和产业链建设方面取得了一定进展,但与国际先进水平仍存在差距。中金公司通过投资支持,助力国内半导体真空零部件企业提升技术实力,推动产业升级和市场布局。未来,随着新材料、新技术的不断涌现和产业链的完善,预计半导体真空零部件领域将迎来新一轮发展机遇。
大模型日报(5月31日 学术篇)https://mp.weixin.qq.com/s/LaoXBt-RFNJZcAvlWS9MrQ
HuggingFace&Github

01

V-Express

V-Express 是一种创新的肖像视频生成方法,通过渐进式的 dropout 操作来平衡不同强度的控制信号(如音频、姿态和原始图像),解决了弱信号被强信号所掩盖的问题,并提供了多种生成策略,如无翻转、固定人脸和偏移翻转等,可根据需求调整不同输入条件的权重,生成逼真自然的说话视频,为视频编辑、虚拟主播等应用提供了帮助,同时发布了可直接使用的代码和预训练模型。
大模型日报(5月31日 学术篇)https://github.com/tencent-ailab/V-Express
02

MusePose

MusePose 是一个基于姿势的虚拟人类视频生成框架,可以根据给定的姿势序列,生成目标人物在参考图像中的舞蹈视频。它采用了扩散模型技术,生成效果超越了当前大多数开源模型。

大模型日报(5月31日 学术篇)https://github.com/TMElyralab/MusePose

03

FinRobot

FinRobot 是一个开源的、综合性的 AI 代理平台,专门针对金融领域设计,旨在利用大型语言模型作为”大脑”搭建智能 AI 代理系统,通过多层次的架构实现金融数据分析、市场预测、交易决策等功能,并配备智能调度器优化代理的性能与集成,为金融行业提供全面、灵活的AI解决方案。
大模型日报(5月31日 学术篇)https://github.com/AI4Finance-Foundation/FinRobot

推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/14972.html

Like (0)
Previous 2024-05-31 18:12
Next 2024-06-01 22:03

相关推荐