上周开展了“多元视角看Sora:技术框架、Infra、芯片、内容之重塑活动”,从多个视角分析留给产品和创业的机会。
🎉 感谢各位嘉宾和观众的分享和讨论,历届的活动都统一放在了大模型空间站里,也欢迎大家关注查看之前的活动和回放:
模型架构
1.Sora的核心架构长什么样?
Sora = (3D) VAE + DiT
・ VAE的作 用:压缩视频的数据维度,方便后续的模型计算。
VAE,即变分自编码器,是一种特殊类型的神经网络,它主要用于学习数据的潜在表示(latent representation),也就是数据背后可能的抽象特征。
用更简单的话来说,VAE就像是一个复制机器,但它不仅仅是复制,它还能创造。它通过观察一组数据(比如图片、文本等),学习到这些数据背后的规律,然后基于这些规律生成新的数据。这个过程就像是从一堆乐高积木中学习到如何搭建城堡,然后用这些积木再搭建出新的城堡。
VAE的核心思想是使用概率分布来表示数据 ,并通过优化这些分布来生成新的数据。它由两部分组成:编码器(Encoder)和解码器(Decoder)。编码器的任务是将输入的数据转换成一种中间表示,这种表示可以看作是数据的压缩版本。解码器则负责从这个中间表示中恢复或生成新的数据。
・ DiT的好处:scability能力更强;transformer硬件加速更完善。
Diffusion Transformer(DiT),用Transformer架构取 代了以往在VAE的潜空间训练的Latent Diffusion Models(LDMs)框架中常用的U-Net主干网络。
・ 另一篇值得关注的论文:SiT (S calable Interpolant Transformers)
https://arxiv.org/abs/2401.08740
SiT相对于DiT会结合的更紧密一点,它可以看作是在DiT的基础上从抽象质量到速度的一个升级。 与DiT相比,SiT的主要区别在于它提供了更多的灵活性和可扩展性 。
SiT通过引入连续时间学习、速度预测、不同的插值器选择以及确定性或随机采样器的使用,实现了在生成图像质量上的显著提升。此外,SiT在实验中展示了通过调整扩散系数来优化性能的能力,这是DiT中通常与正向噪声过程紧密关联的,而在SiT中可以独立调整。
2.Auto Regressive和Diffusion技术的区别
・Auto regressive(AR)的目标是逐个预测token
・Diffusion训练一个去噪声的目标, 模 型学习如何从这些噪声数据中恢复出原始数据(逆向扩散过程)。
总结: Diffusion速度快质量好;AR训练出来的模型可以拿来做一些下游任务。
问题 : 对于Sora的序列建模来说,为什么用diffusion one-shot的方法就能做到很好?( 我不在图片内部里做AR,但是在一帧一帧Patch上为什么不用AR?)
回答: 2021年的VideoGPT就是将一帧一帧的序列去做AR,效果也特别好。但OpenAI能用Diffusion做出来说明video本身就是一个lower dimensional subspace,并且完全是可以one-shot做出来。并且Sora给的填充空白的例子里看得出来这不是个AR。
https://wilson1yan.github.io/videogpt/index.html
3.控制模型的生成质量
之前: 图片生成模型生成生成关键帧 + 将不同的关键帧 拼在一起 得到一个 不是特别端到端的视频生成模型。
关键节点: 去年5月份的 ControlNet 实现很好的控制。 现在大家看到的很多小姐姐跳舞什么的,其实都是用的这个control net去做关键帧,然后去生成。
ControlNet 主要是一个用于控制 AI 图像生成的插件,它通过提供额外的输入条件来引导预训练的大型模型(如 Stable Diffusion)按照创作者的意图生成图像。 这样做可以显著提高 AI 图像生成的可控性和精度。ControlNet 的主要功能包括 控制人物姿势/线稿上色/恢复画质/动漫变真人/多模型组合应用等等。
https://github.com/lllyasviel/ControlNet
现在: 可 以 拿大规模的语料,然后用大规模的图片和视频和文本,对去对它做一个更好的生成。
很 多比如粒子爆炸或者是海浪卷过来,或者是一些跟物理相关的现象,用传统的拼接的技术其实是很难做到的。
对于连贯性(猜测):sora的数据很好,要有足够多长的时间训练 + 其次需要特别持续性的模型。训练完之后,在去噪化或者在帧与帧之间还需要一些额外的处理。
4.关于Sora与GPT4融合的可能性与方式
・ 打标签能力(推测):OpenAI内部应该有一个非阉割版的GPT4提供一个没有偏差的打标签的能力,能让训练数据应该会比现在现有的能调API得到更好的效果。
・ VAE(推测):后来OpenAI一系列关于视频理解的东西,其实都是基于他们现在sora的VAE tokenizer。
・ 融合训练:文本信息对 应视频结合的情况特别少,如何训练这个模型会是一个比较大的问题。 例如 Dalle-3和GPT-4的结合就是 GPT-4写了个prompt调用了Dalle-3的API。
Sora的两个问题 :1. 视频和语言怎么做结合?2. 怎么去训练?
对于问题2, Google & VideoPoet的方法: 通过VQGAN全部去做Tokenize去做训练 ,结合就会更自然。 如果是LLM和Diffusion,处理情况未知。 (Sora技术报告未公开)
VQGAN (Vector Quantized Generative Adversarial Network)是一种结合了向量量化和生成对抗网络(GAN)的图像生成模型 。它旨在提高生成图像的质量和多样性,同时保持高效的计算性能。VQGAN的核心思想是使用向量量化来压缩和表示图像的潜在空间,这有助于减少模型的参数数量并提高生成过程的稳定性。
https://sites.research.google/videopoet/
数据相关
1. Sora 使用了多少数据 & 数据来源?
Stable Video Diffusion 有几百个million个视频加起来 200多年,sora可能是这些数据的几倍甚至几十倍 。 开源数据库中高质量 视频数据较少, 并且视 频的版权问题要比文本更复杂。
数据来源(猜测): youtube上的video或者是shutterstock这种比较高质量的数据
高质量的视频数据包括 数据种类、维度、多样性等各种方面去考虑,例如 高分辨率、帧率、内容的相关性和多样性、无版权问题、元数据、音频等等。
比较好的数据: 比方说教科书/纪录片等视频;然后就是好的UE引擎游戏特效;caption的时候用GPT-4V去做自动的caption。
像Meta之前的Emu Video,用了3500万个授权视频,如果猜测OpenAI在数据上扩大10-20倍,可能数据量在1-7亿分钟。
2.数据配方上有什么创新?
・ caption的长度:可长可短,额外需要关注的是,如果使用一个特别长的caption,caption在你的整体的整个数据里的占比分配的问题。 “caption” 指的是与视频帧(frame)或图像相关联的描述性文本 – 描述视频画面的文本内容。也是上面所说的 和对应的视频 结合的 文本。
・ Camera view的提升: 在这一次sora的数据里面,camera view上有很大的进步,物理碰撞交互的一些逻辑在以往视频生成技术中比较难实现,比如雪散开、狗狗的毛发纹理,但sora在这些方面已经做的比较好了。(怎么做的还不清楚)Youtube的数据由很多人和人之间的interaction; UE收集没有那么多人但有比较强的physical signal的数据。 最好是找一些有自然的镜头转换的数据。
・ 数据压缩率:类比Mamba,2.8B的模型吃300B token的数据(大约3 0万分钟视频)吃不满当然用户对视频信息量有很大的包容,可以吃到很多信息。
但是对于语言模型来说大概率是吃不满的,可能在给个2-3倍就吃满了。
3.能启发什么样的数据飞轮?Sora 是否标志着 AI 生成数据的起点?
类比思考: 其实包括DALLE、midjourney,这些text to image模型已经能够生成很好的图片了。Google已经在用AI生成的图片来训一些视觉模型,他们发现在很多评估基准上面已经和用真实图片来训练的效果差不多了
但是在 text to image 这里面,文字和图片的binding其实做的还不是特别好,但是生成的这个图片本身,已经足够训练一个特别好的视觉模型。
4.Sora对国内数据标注和生成公司的长期影响?国内数据收集的难点是什么?
并视频数据的使用有效期比较短,文字可能过50年之后还能被作为训练数据,但是因为视频技术在不断发展,视频数据过50年就会发现已经跟不上时代发展了。导致视频数据的收集,都得是比较新的数据才行。
・ 一些特定风格的数据比较难收集, 一个中国人做的文生图的模 型,但是却发现画不出中国的一些concept ,比如你让它画中国风格的舞狮灯笼,或者一个城市,模型画的都是西方风格。 这种的数据往往都是就是私有的,或者需要花钱买许可的。
所以他在发布模型的时候,ReadMe文档里面就写的很清楚,说模型可能画中国风格的不太好,但是欢迎用户通过LoRA自己去调整参数。
获取一些特定风格数据的思路: 先用有版权的视频训一个视频生成的sora出来,在用视频生成sora去生成一些synthetic data,这个synthetic data版权就很好,能比较好解决数据集不够的问题。(另外注意一下过拟合的问题)
算力&成本
1 .算力的量级
训练的形态都是比较一致的状态,transformer(auto regressive decoder only)以及diffusion都是计算密集型。也就是不管a100还是h100,都能把计算的密度达到90%,硬件架构的影响不大。
(推测)算力量级: 从AR的角度去算,可能需要十万张卡(但现在用的diffusion)。 VideoPoet 8b模型,小1000张卡, 训练了两周 。
Sora参数: 10b模型,数据不确定(很高还是很高质量)。
2.评估生成一分钟视频的成本与速度
某家报社拿到内推:Sora 推理慢,成本可能比较高。
第二种方法:成本估算方法:FPS * 时间 * DiT速度(有误差)。
以 1080p Stable Diffusion视频为例,计算:1图(1美分) * 30FPS * 60秒。
(按照图片)60s视频生成最低成本估算:$10-$36 。
3.用什么办法可以降低成本
・ 用文生图的优化方式处理视频,例如 开源加速成本降低,社区优化如LCM可使成本降十至百倍。
LCM: 通过训练一个新模型,如 Dreamshaper-V7,用于显著提升 Stable Diffusion 出图速度。其能够在仅需2-4步操作的情况下生成一张768*768分辨率的清晰图像。
图像优化技术同样适用于视频,广泛传播性可能吸引更多优化。
・ 同时可以应用于Sora的软件技术,包括动态批处理、序列并行处理、投机推理、模型压缩等等。
Dynamic Batching (动态批处理): 一种优化技术,用于在运行时动态地组合多个数据点或请求以进行批处理。这样做可以提高模型的处理效率和吞吐量。
Sequence Parallelism (序列并行): 一种并行计算技术,特别适用于处理序列数据(如文本或时间序列数据)。它通过在处理序列数据时并行执行多个操作来提高效率。
Model Compression (模型压缩): 旨在减少模型的大小和计算需求,同时尽量保持模型性能。模型压缩技术包括权重剪枝、量化、知识蒸馏等。
・ 投机推理可能会遇到的问题:小模型尝试预测或生成视频帧不一定被大模型给接受,需要一个好的Discriminator 结构。
基本流程: 小模型接收一些输入信息 — 生成一个预测的视频帧或图像 — 大模型通过判别器(在GAN的上下文中)来判断该内容是否足够真实 — 小模型获得反馈(否定就再次生成)— 迭代优化。
Speculative Execution (投机执行或投机推理): 一种计算优化技术,其中系统提前执行某些任务,而不是等到确实需要执行这些任务的时候。这是基于对将来操作结果的预测(或“投机”)。LLM 语境中,投机推理使用较小的模型先行预测某些输出,然后验证这些预测是否准确,以此来加速整体的推理过程。这种方法可以减少等待模型输出的时间,但带来的挑战是如何处理不准确的预测。
Discriminator(判别器): 在深度学习特别是 GANs 的上下文中,判别器是网络的一部分,其任务是区分生成的数据与真实数据之间的差异。
4.如何通过增加计算负担来减轻带宽压力
采用投机推理和KV压缩技术,在不增加带宽前提下传输更多数据。
・ 键值对(KV)压缩: 一种数据优化技术,旨在减少存储键值对数据时所需的空间,同时尽可能保持数据的完整性和可访问性。常见的压缩技术:字典压缩,前缀压缩,值压缩,去重复,编码优化等
Sora架构讨论: 带宽需求不高,优化策略包括激进数据压缩、减少扩散步骤。
Sora的问题: 在做推理的时候,它的推理本身就打得特别满,利用率特别高,这就不是MLsys的事情了,应该去用优化模型,能不能做更好的compression,diffusion step能不能更少。
5.是否通过其他方法实现显著成本降低
优化浮点精度: 降低精度如使用FP16减少计算需求,但可能牺牲性能。(牺牲精度减少更好的模型效果)
优化浮点精度:浮点数精度指的是数字表示中可以包含的细节程度。常见的精度包括32位(FP32)和16位(FP16)。在一些场景中,通过降低精度(例如,使用SP16或更低精度的浮点数)可以减少计算需求,从而降低能耗和成本。但是,这种精度的降低可能会牺牲模型的性能。
低精度如SP16可降低成本,需权衡性能损失。 训练中FP16不足,需FP32。 未广泛应用比特级精度优化于视频模型。
6.Sora架构共识与未来方向
共识: 先确保性能效果,后性能优化,期待MLSys优化。
观点1: 采用比特级表示(如1.5比特)软件层面可能,展现稳定性。
7.如何不更换硬件实现模型成本大幅降低
主流的三种方法: 模型蒸馏、 浮点精度优化、 算法优化减少推理步骤
・ 推测今年年底,软件优化可使成本从50美元降至5美元,推理时间从五分钟减至一分钟。
・ 对比SD技术成本趋势预测未来降低,强调开源模型重要性。
・ 大公司因版权问题对发布开源模型持悲观态度,如NVIDIA。
・ 小型公司如Pika版权灵活,有更多发布模型机会。
硬件&环境
1 . Sora对宏观硬件设计影响
小插曲: Sam Altman 7 万亿计划意义—— 5000亿芯片假设,地球每100平方米拥有一芯片,城市每办公室3、4张; 同时Metaverse时代 提出云边端算力协同,考虑基站安装GPU,技术发展使算力协同重要 。
市场需求主导(足够大),特别是结合web3或流量经济,互联网公司推动需求。
Sora可能结合VAE和DiT,如果无自回归特性,现硬件足够。
互联网公司: 偏好同构集群,高效资源分配,白天实时、晚上离线任务。
新兴公司或开源社区(Pika or Runway): 若统一需求,可能对重新设计硬件、调整软件适配感兴趣。
2.未来硬件设计主导方
从未来的角度来看, 如果市场需求大,每个人都有十几个芯片,需设计低功耗环保芯片 。 芯片设计高成本风险 ,探讨开源硬件趋势,可分解步骤如Verilog、物理设计。 集结人力开源硬件可降成本 ,中国公司如华为可在国内市场领先合作项目(大家一起改变生态局势)
Sora在GPU表现高效,但视频生成成本想降低需软硬件共同优化 。
・ 硬件上的优化:稀疏化、系数化优化及其对模型通用性影响,但未见成功案例。
・ 稀疏化:在模型的权重中引入更多的零值,从而减少模型的复杂度和计算需求。这可以通过删除不重要的连接或权重来实现,使得模型变得“稀疏”。
・ 系数化:将模型中的权重和激活从浮点数(如32位浮点数)转换为低精度的格式(如8位整数)。这样做可以减少模型的大小和计算时的内存需求,同时也可以加速计算过程,因为整数运算通常比浮点运算更快。
3.Sora的变革/游戏的影响
・ Sora带来的好处:与世界的交互 + 颠覆原先玩家的操作
例如:世界观和元素都是不完整的,对行走模拟器和第一视角3D恋爱的游戏是有先天契合度的,比如叠纸的恋与深空,能给这种游戏做很好的游戏体验。
比如接触到游戏内某个无法通行的障碍物的时候,玩家需要完成一些前置任务去对它进行解锁。在玩家接受前置任务的时候,可以让系统开始对账户后方的内容进行生成。
还有一种思路是用预请求内容去填补 就直到说生成完成,这时候再用衔接策略是实现了一个视觉上的无缝衔接,使得预警内容可以被替换成是生成内容。
问题:一分钟的Sora模型转换成3D场景的一个引擎里面的渲染难度大吗?
回答: 有很多人在做,并且一分钟的视频转到一个4D的高斯能在引擎里表达的一个场景很快就能做出来。例如Sora + Luma导入的工作流现在是可以跑通的。
另外,Sora本身就可以做 “完蛋,我被美女包围” 这样的游戏。
潜在问题: 但是商业模式可能要像real shot的短剧平台,对每段短剧进行付费,比如Sora每生成一分钟视频,玩家就去付费。(但Sora还是太贵了)
4.有趣的讨论:创业去做什么?
・ 给一个multi-modal的LLM让它去思考说话!
・ 拿模型去做机器人的planning – 做自动驾驶,无人车,机械臂的数据收集。(OpenAI会不会去干机器人去了?)
・ 是否能把人和人之间的交流变得更简单,沟通效率更高!
・ 让Sora帮我发社交媒体的内容。
・ 让 Sora进入游戏。
以上为本次活动所有笔记,如对活动回放或下次活动有兴趣,可扫码加入空间站。
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/03/17028.html