大模型日报(8月31日~9月1日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(8月31日~9月1日 学术篇)

学习

01

Minimax Link伙伴日学习笔记

#LLM 部分
1. minimax 每天全线消耗 3 万亿 tokens。2. 用 linear attention+moe  结构增加上下文长度,降低推理成本。minimax 推测 OpenAI 也是这么做的。3. linear attention 的训练,推理的工程挑战都不一样。4. linear attention 序列并行方法需要重新设计,采用类似 ring 方式,但通信量和序列长度无关。5. linear attention 计算速度快于标准注意力,通信极易成瓶颈,训练算法的的 optimizer 需要修改成异步的,来重叠通信与计算。6. linear attention 推理没有 kvcache。不需要投机采样,也没有现在流行的 kvcache 为中心的各种优化,比如 pd 分离,prefix cache 之类的。7. linear 推理可以实现近乎无限上下文,而且历史信息就是 K× V  大小O(d^2),存储特别少。8. 有 TNL(minimax 的 linear attention 结构名称)的 scaling law 实验。交流完挺震撼的,如果 llm 未来都变成 linear attention 的话,搞 llm kvcache 优化的,搞大带宽芯片的,可能都白忙活了。
#多模态 部分
1. 现场有一个视频生成剪辑炸场,大家在视频号能看到。2. 生成5s 720p 的视频demo展示需要三四分钟。DiT实时推理还任重道远,xDiT 大有可为!3. 音乐生成也需要DiT。
大模型日报(8月31日~9月1日 学术篇)https://www.zhihu.com/pin/1813367383781433344?native=1&scene=share&utm_psn=1813519125974228993
02

Image Tokenizer与Autoregressive Image Generation

技术背景:目前在生成领域,图像和视频的生成主要依赖于扩散模型(Diffusion),而文本生成则由自回归模型(LLM)主导。扩散模型在连续空间中进行建模,而自回归模型则在离散空间中进行下一个Token的预测。这种技术上的差异带来了设计统一的多模态大模型(如Any2Any)的挑战。
现有解决方案:部分研究(如Chameleon和Unified-IO)尝试将图像编码为离散的Token,并通过自回归方式训练。Unidiffuser则使用扩散模型来建模各种概率分布,以实现Any2Any的生成。这些方法展示了整合图像和文本生成技术的不同思路。
Image Tokenizer设计:文章探讨了将图像像素直接离散化处理(类似于将文本单词转换为Token)的可能性。为了解决直接离散化导致的问题,如分辨率过高和分类不适配等,VQVAE提出了一种通过压缩图像并离散化其低维表示的方法。
自回归图像生成:为了有效地将离散化后的图像Token进行自回归生成,文章介绍了跨注意力机制与多尺度生成模型(如VAR)的应用。VAR通过多尺度的VQGAN编码,使得生成过程更高效并具有较强的扩展性。
VQ替代方案:作者讨论了Vector Quantization (VQ) 的局限性,并提出取消VQ,直接使用连续向量进行自回归生成的可能性。通过Kaiming的研究,表明在没有VQ的情况下,仍然可以通过扩散损失来有效地计算条件概率分布。
大模型日报(8月31日~9月1日 学术篇)https://zhuanlan.zhihu.com/p/707759472?utm_psn=1813307767139729408
03

阿里开源视觉多模态模型 Qwen2-VL,技术能力如何?

Qwen2-VL 的主要技术特点包括:
  1. 动态分辨率支持:能够处理任意分辨率的图片,解决了传统图像处理需要固定大小的问题。这使得模型在视觉任务中更为灵活,尤其是在理解长达20分钟以上的视频时表现突出。
  2. 多模态旋转位置嵌入(M-ROPE):通过将旋转嵌入分解为时间、高度和宽度三部分,模型可以更好地捕捉和整合一维文本、二维图像以及三维视频的位置信息,大大提升了复杂场景的处理能力。
  3. 广泛的多语言支持:除了中文和英文外,Qwen2-VL 还支持大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。这使得模型在全球范围内的适用性更广泛。
  4. 模型结构:采用了 ViT 加 Qwen2 的串联结构,在不同规模的模型上都使用了 600M 的 ViT,支持图像和视频的统一输入,并实现了原生动态分辨率的全面支持,图像被转换为动态数量的 tokens,最小只占 4 个 tokens。
该模型还通过实际测试展示了其在图片信息抽取、计算、OCR 识别和表格结构化输出方面的强大能力,虽然在一些复杂任务中仍有改进空间,但整体表现优异,尤其是在中文任务上领先于许多闭源模型。
大模型日报(8月31日~9月1日 学术篇)https://www.zhihu.com/question/665704731?utm_psn=1813306893352968193
04

MAGPIE: 通过无提示对齐的LLM从零开始合成对齐数据

研究团队利用对齐模型(如Llama-3-Instruct)的自回归特性,通过输入简单的模板提示,让模型自主生成用户查询和响应,进而构建庞大的指令数据集。该方法避免了传统数据生成方式中对提示工程和种子问题的依赖,大大提高了生成数据的多样性和质量。
MAGPIE成功生成了400万个指令-响应对,并从中筛选出30万个高质量实例用于对模型的微调。实验结果显示,使用MAGPIE数据微调的模型在多个基准任务上表现优异,甚至在某些情况下超过了使用1000万个数据点进行监督微调的官方模型。此外,MAGPIE数据在指令优化(SFT)和偏好优化(如UltraFeedback)的组合任务中,也表现出色。
MAGPIE的技术创新在于其无需人工干预的完全自动化流程,通过直接利用LLM的预定义模板生成指令和响应数据。与传统方法相比,MAGPIE不仅降低了数据生成的成本,还提升了数据的覆盖范围和任务多样性,尤其是在复杂推理任务和多轮对话任务中表现突出。
在技术细节方面,MAGPIE利用了LLM的自回归生成能力,在输入简单模板的情况下,生成高度多样化和复杂的指令数据。该方法不仅适用于现有的开源模型(如Llama-3-8B),还能够扩展到其他基础模型上,如Qwen1.5,证明了其在不同模型框架下的广泛适用性和高效性。
大模型日报(8月31日~9月1日 学术篇)https://zhuanlan.zhihu.com/p/717562402?utm_psn=1813306215532457984
05

LLM 推理/训练 I/O Pattern初探

  1. LLM 推理应用

  • Syscall Trace分析:记录了72713行系统调用,其中与模型文件和文件系统相关的仅3079行,主要涉及openatstatxmmapfstat等系统调用。发现LLM推理中大量使用mmap系统调用进行匿名内存映射,futex调用频率极高,但其主要用于线程同步,较少涉及底层文件系统交互。

  • mmap细节:mmapmunmap调用时间差非常短,约为1.97毫秒,无法解释大模型(如20G)如何在如此短的时间内加载至显存。

  • Blktrace分析:总I/O请求主要集中在4KB、128KB和256KB,写操作的I/O大小集中在4KB和512KB,读写操作表现出高度随机性。

  1. LLM 训练应用

  • Syscall Trace分析:训练阶段包括模型定位、加载至显存以及保存checkpoint等操作,主要使用statlseekread等系统调用。不同于预期的顺序读取,实际发现大量随机读取操作,系统频繁调用lseek调整文件读取位置。

  • Blktrace分析:训练过程中I/O请求主要集中在4KB、128KB和512KB,顺序读写操作占大多数。训练数据写入时占用了显著的I/O带宽,每次训练完成后将显存中的数据写入文件系统。

  1. I/O 特征总结

  • 推理应用:随机读写操作占主导,特别是在访问大模型时,推测是由于系统通过索引机制进行数据读取,非顺序读取。

  • 训练应用:顺序读写占主导,读写字节比接近1:2,符合模型读入与训练数据写入的预期。随机写的比例较低,但其对性能的影响值得进一步研究。

  1. 后续建议

作者提出需要进一步研究索引文件以及PyTorch的源码,尤其是如何通过索引文件将大模型有效加载至显存。此外,由于syscall trace中没有发现传统的阻塞I/O或异步I/O调用,建议深入分析PyTorch是如何处理大模型加载的底层机制。

大模型日报(8月31日~9月1日 学术篇)https://zhuanlan.zhihu.com/p/717560804?utm_psn=1813305085435981824

06

存储 IO 性能优化策略、方案与瓶颈分析

  1. IO模型特性:不同应用的IO特性各异,需针对性优化。

  2. 性能指标:主要指标为吞吐量、IOPS和延时,需根据应用场景选取并优化。

  3. 优化策略:

    1. 存储设备:选择适合的磁盘类型和优化缓存机制。

    2. 网络:提高带宽,减少延时。

    3. 传输协议:选择高效协议。

    4. 主机与应用层:调整系统配置,优化数据库查询和索引。

  4. 数据库瓶颈:关系型数据库的IO瓶颈常在日志写入,需优化硬件与操作系统配置。

  5. Queue-Depth管理:队列深度影响并发IO性能,但需避免过高导致的QFULL问题。

整体优化需综合各层面的性能需求和瓶颈分析,实现高效存储IO性能。

大模型日报(8月31日~9月1日 学术篇)https://zhuanlan.zhihu.com/p/717518412?utm_psn=1813531135659098112

07

Intel 微架构的演进

本文概述了Intel微架构的演进,重点突出各代技术创新:
  • 80486(1989年):首次集成片上缓存和数学协处理器,提升浮点计算性能。
  • P5(1993年):引入超标量处理和分支预测,但存在BTB局限性。
  • P6(1995年):支持乱序执行,改进指令解码和寄存器管理,显著提升处理效率。
  • NetBurst(2000年):采用长流水线,专注于高频率,但复杂结构导致性能瓶颈。
  • Pentium M(2003年):优化功耗与性能,改进µop融合和分支预测,适用于移动设备。
  • Yonah(2006年):引入双核和SSE3指令集,改进分支预测但仍存在误预测损失。
  • Core(2006年):重大升级,支持64位,提升每瓦性能,通过Macro-Ops Fusion优化执行效率。
  • Sandy Bridge(2011年):引入AVX指令集和µOP缓存,优化环形总线,实现性能与功耗平衡。
  • Skylake(2015年):前端和乱序执行全面升级,提升多线程处理性能。
  • SunnyCove(2019年):10nm制程,高乱序执行能力,增强前端与重命名器,提升整体性能。
  • Golden Cove(2021年):进一步优化分支预测和重排序,提升多线程环境下的执行效率。
大模型日报(8月31日~9月1日 学术篇)https://zhuanlan.zhihu.com/p/571333092?utm_psn=1813175575130550272
08

大模型训练:如何优化MFU

Model FLOPs Utilization(MFU)是衡量大模型训练效率的重要指标。其计算方法通常包括对模型FLOPs的估计,除以设备数、理论算力和每个迭代的时间。例如,在64卡A100上训练GPT-175B模型时,MFU可估算为50%,与精确公式计算结果接近。
MFU的分数受三大因素影响:1)Matmul算子的效率,例如在A100上Matmul算子效率可达83.3%;2)Matmul算子的比重,优化小算子通过算子融合策略提升Matmul比重;3)实际计算比例,反映所有算子的计算时间占总训练时间的比例,其中通信开销、流水线并行中的bubble开销等非计算部分也起重要作用。
在实际操作中,优化MFU的关键在于针对这三项指标进行监督和改进。尤其是对于不成熟的硬件系统或新模型结构,Matmul和FlashAttention算子在特殊情况下可能表现不佳,非融合算子也可能导致性能问题。因此,除了常规的工程优化,还需在通信隐藏和bubble填充等系统挑战上持续改进,以实现更高的MFU分数。
https://zhuanlan.zhihu.com/p/717509355?utm_psn=1813307829840388096
09

【滴水研究】智能时代纪事:人形机器人产业研究(下篇)

本文详细分析了人形机器人产业的技术难点及市场前景,强调了多学科交叉的复杂性与挑战。
在感知层,触觉传感器阵列、六维力/力矩传感器及高精度关节位置传感器是关键技术难点,需要新材料开发和传感器的优化设计。在执行层,面临高功率密度电机、行星减速器、谐波减速器和柔性关节设计制造等挑战,要求在有限空间内实现高效、稳定的动力传递。
机械结构方面,仿生关节设计和轻量化结构优化是重点,采用拓扑优化和新材料来减轻重量,并实现模块化、可重构设计。运动学/动力学层面,实时运动规划和鲁棒稳定控制是难点,需要处理复杂环境下的动态运动控制问题。
控制系统方面,高实时性嵌入式平台和多模态传感器融合是核心,特别是自适应力/阻抗控制,实现柔顺的环境交互。人工智能算法层面,基于视觉的目标检测与定位、基于触觉的物体识别与操作是重点,强化学习与模仿学习对提升机器人自主性至关重要。
市场分析显示,人形机器人在3D任务、高危险性工作、灾难救援等领域有巨大潜力,但目前市场仍处于早期阶段,成本和技术是主要限制因素。未来发展依赖于技术进步和成本降低,市场需求的逐步扩大将推动产业链成熟。
大模型日报(8月31日~9月1日 学术篇)https://mp.weixin.qq.com/s/JT50Q55eOCPx-1gQvc6O-Q
HuggingFace&Github

01

BaichuanSEED

BaichuanSEED 是一个基于大规模数据处理预训练的 7B 参数语言模型,希望可以提供与先进商业语言模型相媲美的性能。其在多个基准测试中展现出一致性和可预测性,并探讨了在数学和编码等下游任务中的可优化潜力。
https://baichuanseed.github.io/
02

kotaemon

kotaemon 是一个开源的 RAG(检索增强型生成)文档问答工具。它提供了一个干净、可定制的聊天界面,适用于希望对文档进行问答的用户,以及希望构建专属 RAG 的开发人员。
大模型日报(8月31日~9月1日 学术篇)https://github.com/Cinnamon/kotaemon
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/09/13235.html

Like (0)
Previous 2024-08-31 10:22
Next 2024-09-02 08:30

相关推荐