我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
学习
Megatron-Deepspeed Moe单机多卡训练与推理
文章介绍了如何在单机 8 卡 v100 环境下,使用 Megatron-Deepspeed 进行 GPT 模型的训练与推理。环境配置包括安装 conda 环境(python>=3.9)、系统依赖(如 build-essential)、Pytorch、Apex、Deepspeed、pynvml 和 wheel 等。需要下载 EnvPipe 源码以及 Megatron-Deepspeed 的相关依赖配置,以及 GPT vocab 和数据集。
需要修改的文件和代码段包括 training.py
和 transformer.py
。训练和评估脚本的执行方式为使用 train.sh 和 eval.sh,并可以根据需要下载适合的数据集进行推理。
https://zhuanlan.zhihu.com/p/697933898?utm_psn=1774724924344987648
腾讯 PCG 搜广推机器学习框架GPU 性能优化实践
腾讯PCG的搜广推机器学习框架通过GPU性能优化,解决了CPU算力集群在网络带宽、硬件选型、CPU型号不稳定以及云容器共享资源导致的性能瓶颈问题。技术细节包括:
采用单机多卡GPU训练框架,支持几TB到10TB的大模型。
利用硬件特性,如SSD、host memory和网卡,提高训练上限。
技术选型基于TensorFlow,兼容PyTorch,考虑XPU和参数服务器兼容性。
数据结构采用四级缓存设计,优化读写与训练分离,提升性能。
训练流程分离数据读写和计算过程,实现多级流水线并发。
优化手段包括网络优化、DMA、direct IO、数据结构优化等。
预处理阶段采用CSR格式减少cache miss rate,优化空间和计算。
Compute过程采用Dynamic embedding、Multiple Hash、混合精度等优化。
未来展望包括在非英伟达GPU上训练、推荐大模型与GPT结合、更灵活架构、支持PB级训练和使用更低硬件配置。
Mooncake (1): 在月之暗面做月饼,Kimi 以 KVCache 为中心的分离式推理架构
Mooncake 是一个基于分离式架构的 LLM 推理平台,它将单个同构 GPU 集群的资源重新组织为三个独立的资源池:Prefill Pool、KVCache Pool 和 Decode Pool。Prefill Pool 负责处理用户输入,主要影响 Time To First Token (TTFT),并通过计算密集型的 Prefill 任务提高资源利用率。Decode Pool 负责自回归流式输出,关注 Time Between Tokens (TBT),采用 TBT 而非 Time Per Output Token (TPOT) 是为了更好地反映流式交互中的用户体验。KVCache Pool 实现全局的 Prefix Cache,通过全局调度提高复用率和总吞吐。文章讨论了 Prefill 是否应独立存在,以及如何通过 Chunked Prefill 和特殊的多节点分布式划分方法降低 TTFT。KVCache 的全局调度成立的原因在于对于每 X byte 的 KVCache,其生成所需算力与 X 成正比,因此在某些条件下,从远端传输 KVCache 相比原地重算能减少计算量和提升用户体验。Decode Pool 的未来工作包括增加面向大容量大带宽设计的高性价比设备,形成异构集群。文章还提到了一种基于 heuristic 的热点识别和复制方法,以及对于 Decode 部分进一步拆分成 attention 算子和 Linear 算子两个池子的可能性。
https://zhuanlan.zhihu.com/p/705754254?utm_psn=1789759942602911745
水多加面面多加水——参数量和数据的缩放定律
文章首先提到了大模型训练的高成本问题,强调了选择合适的模型大小和数据量的重要性。接着引入了 Deepmind 的 “龙猫最优” 范式,该范式指出在给定的训练算力下,模型大小和数据量应该同时增长,以达到最佳的训练效果。文章特别提到了 LLaMA3 的研究,它进一步指出即使是小模型,也可以通过大量的数据训练来提升性能。文章还分析了 OpenAI 的缩放定律,即模型性能与层数、深度、宽度的分配关系基本无关,并指出模型参数量和数据量应该同时增长,而不是仅仅增加模型参数量。文章通过实验数据展示了不同模型大小和数据量组合下的训练效果,得出了最优参数量 – 数据配比的结论。最后,文章讨论了过训练范式,即在给定的计算资源下,使用更多的数据来训练模型,以及这种范式对模型性能的影响。
https://zhuanlan.zhihu.com/p/697473051?utm_psn=1773953604564406272
FasterTransformer Decoding 源码分析(六)-CrossAttention介绍
CrossAttention 模块位于 DecoderLayer 的第 4 个模块,输入为经过 LayerNorm 后的 SelfAttention 结果和 encoder 的 outputs,经过该模块处理后进行残差连接再输入 LayerNorm 中。
CrossAttention 模块本质上还是要实现如下几个公式,主要的区别在于其中 CrossAttention 的K, V矩阵不是使用 上一个 Decoder block 的输出或 inputs 计算的,而是使用Encoder 的编码信息矩阵计算的,这里还是把公式放出来展示下。
整体 Block 和 Thread 的执行模型还是和 SelfAttention 的保持一致,这里不再赘述,主要介绍一下有一些区别的 KV Cache。由于在 CrossAttention 中 K,V 矩阵是来自于已经计算完成的 Encoder 输出,所以 KV Cache 的程度会更大,即第一次运算把 KV 计算出来之后,后续只要读取 Cache 即可,不需要用本 step 的输入再进行线性变换得到增量的部分 K,V。
https://mp.weixin.qq.com/s/aKXW61Y0_ndEYv7a0TMR6g
解析FinRAG数据集和研究
研究探索了当前最先进的语言模型LLMs在从公开可用的财务报告中提取收入数据的能力。研究基于对1,156家随机选定的美国上市公司2023年度报告的相同选定范围创建了3种不同的数据集。研究评估了8种最先进的(M)LLMs在100份报告子集上的表现。结果显示,当模型仅接收包含所有必要信息的文本形式的相关表格时,许多被测试的最先进LLMs可以几乎达到100%的准确率,尽管一些模型甚至在这种最简单的练习中也有困难。另一方面,当上下文大小增加时,所有模型在RAG问题上的表现都显著下降,其中一些模型的性能下降了10-30%。同时,纯文本的模型表现要远远好于视觉模型,这表明对于提取财务报告中的数据,纯文本模型更为适用。
https://www.parsee.ai/en/blog/finrag-dataset-and-study/
智能背后的电能保障:GPU算力集群能源挑战的全球视角与中国应对
GPU算力集群能源消耗:随着AI大模型发展,GPU算力集群能源消耗成为关注焦点,目前占全球电力消耗约千分之一,短期内不会造成全球性短缺。
美国电力挑战:新建GPU算力集群集中美国,对局部电力供给和传输带来挑战,美国电力系统相对脆弱,需考虑核能发电以满足需求。
中国GPU算力集群:中国GPU算力增长不会立即导致电力短缺,但预计2030年可能占全国电力消耗的2.7%,需统筹规划用电政策。
应对策略:提升AI算力计算效率,合理布局GPU算力集群,优化绿电交易政策,加强新型电力系统建设,以应对能源挑战。
长期规划:需前瞻性规划应对局部用电缺口和绿电消纳挑战,确保AI技术可持续发展。
https://mp.weixin.qq.com/s/vtHMK1crtqHG-U_Xd7XN1w
大模型网信办备案全网最详细说明(附附件)
文章详细说明了大模型算法备案的具体要求和流程。首先,强调了备案的强制性,违反规定将面临法律责任。备案材料包括《算法备案承诺书》、《算法安全自评估报告》等,需详细描述算法原理、数据来源、透明度、安全漏洞等关键点。安全评估要点涵盖语料安全、模型安全和安全措施。填报流程通过算法备案系统进行,包括主体信息、算法信息、产品功能信息填报,以及线下审核。文章还提供了备案时间成本对比,建议寻求专业服务以提升通过率。
https://zhuanlan.zhihu.com/p/694114550?utm_psn=1774866560005562368
MatchTime
这篇论文希望构建一个自动足球比赛评论模型,提升观众的观看体验。首先,观察到现有数据集存在视频和文本时间对齐问题,手工标注了 49 场比赛的时间戳,建立了更健壮的基准数据集 SN-Caption-test-align。其次,团队提出了一种多模态时间对齐方法,自动校正和过滤现有数据集,创建了高质量的足球比赛评论数据集 MatchTime。最后,基于 MatchTime 数据集,作者训练了一个自动生成比赛评论的模型 MatchVoice,并进行了广泛的实验和消融研究,证明了对齐流水线的有效性以及在下游任务上取得了领先的性能。
https://haoningwu3639.github.io/MatchTime/
Sql-eval
这个仓库包含了 Defog 用于评估 LLM 生成 SQL 的代码,提供了一个全面的测试流程和相关工具,支持在 Postgres、Snowflake、BigQuery 等多种数据库上运行评估,并支持使用私有数据集进行评估,为研究人员和开发者提供了一个一站式的 SQL 生成模型评估解决方案。
https://github.com/defog-ai/sql-eval
— END —
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14462.html