AI视频生成新贵，这里有关于Sora的一切。

Sora 是 OpenAI 最新发布的文本生成视频模型，不仅可以生成长达一分钟的视频，且能完全遵照用户的 Prompt 并保持视觉质量。OpenAI 的格局很大，他不像一般公司那样高喊类似“人人都是导演/艺术家”的口号，而是做 AGI，做 World Simulators（世界模拟器），帮助人们解决需要现实世界交互的问题。

👉Sora 官网：https://openai.com/sora

👉Sora 论文指路：https://openai.com/research/video-generation-models-as-world-simulators

目前 Sora 是没有内测申请渠道的，属于 PR 阶段，秀肌肉阶段。

从下面这个梗图（左）就可以看出，事实上2023年已经涌现了一批 AI 视频生成工具，诸如名噪一时的 Runway 和 Pika。

OpenAI 降维打击所有的 startups，心疼其他AI视频工具的投资人，悬着的心终于死了

比如之前千象（HiDream）发了一个支持15s的产品，当时还小小震惊了一下，心想这个低调的小公司这么牛逼，然后到现在还没公测，就被碾压了。

在此之前 Pika 爆火的时候，我就做过一次研究，这里放两个之前做的图供参考学习（如果觉得糊的话可以私聊要源文件）。

贴上一个今天新出炉的报告，同样如果需要源文件的话可以私信。

再附上一个推特上看到的视频版对比。

白天朋友圈和各大社群都在聊 Sora，晚上央视新闻也做了相关报道。

除此之外，也发生了一些有趣的事情，除了 Gemini Pro 1.5 撞车之外，Stability AI 发布产品更新的推文也删除了。

还有马斯克转发的这个截图

99块的卖课也出来了。一度怀疑是个梗图，直到看到真的有个付费群。我纳闷了，Sora 都没开放咋教学的 Prompt？（明明可以直接诈骗，还送几个提示词教学，人还怪好的嘞）

另外多嘴一句，我认为教学提示词是上限很低的事情，没有那么多用户为了使用AI工具愿意去学习复杂的提示词，尤其还是在各大 AI 工具的提示词没有可迁移性的情况下。平台一定会让用户输入提示词的门槛降到最低，仅需要自然语言即可创造出优秀的作品。

我认为很多机翻个官方报告就发个推文，没太大意义，一些通俗/深层的解读/观点会更有价值。

这里有一个小彩蛋，我在知乎上看到一个不错的文章，然后私信询问是否可以转载到公众号，结果后来发现大佬就躺在我的微信列表。

大佬自己写了公众号，放个入口，没读过官方报告的建议看一看，里面也有大佬一些独到的看法：SORA技术报告全文翻译-作为世界模拟器的视频生成模型

另外看了很多文章，认为其中歸藏老师和红衣教主（周鸿祎）的比较有收获。

其中歸藏老师提到，

Jim Fan 详细介绍了一下 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻 5 引擎。

如果你以为 OpenAI Sora 只是一个像 DALLE 这样的创意小玩具，那你可要重新认识一下了。Sora实际上是一个基于数据驱动的物理引擎，能够模拟各种真实或奇幻的世界。这款模拟器能学会复杂的渲染技术、直观的物理规律、长期的逻辑推理以及语义理解，而这一切都是通过先进的去噪技术和梯度计算实现的。

我甚至猜测，Sora可能是通过使用 Unreal Engine 5 生成的大量合成数据来进行训练的。这听起来非常有可能！

Sora 是一种全新的模型，可以说是一个集成了图像处理和视频生成的智能系统。它能够接收文本或图像输入，并且直接转化成视频像素。这个过程中，Sora 像是在用一种隐式的方式学习物理规律，它通过分析大量视频资料，利用梯度下降法（gradient descent）来优化自己的神经网络参数。

你可以把 Sora 看作是一种可学习的模拟器，或者说是一个能模拟现实世界的“世界模型”。虽然在其运作过程中并不直接调用 UE5，但在训练 Sora 的时候，我们可能会使用 UE5 制作的文本和视频配对数据作为训练材料。这种方法可以让 Sora 更好地理解和模拟现实世界的物理现象。

红衣教主的观点也非常精彩，尤其是第四点。

第一，科技竞争最终比拼的是人才密度和深厚积累。有人认为有了 AI以后创业公司只需要做个体户就行，实际今天再次证明这种想法是非常可笑的。

第二，AI 不一定那么快颠覆所有行业，但它能激发更多人的创作力。今天很多人谈到 Sora 对影视工业的打击，我倒不觉得是这样，因为机器能生产一个好视频，但视频的主题、脚本和分镜头策划、台词的配合，都需要人的创意至少需要人给提示词。

第三，我一直说国内大模型发展水平表面看已经接近 GPT-3.5 了，但实际上跟 4.0 比还有一年半的差距。而且我相信 OpenAl 手里应该还藏着一些秘密武器，无论是 GPT-5，还是机器自我学习自动产生内容。奥特曼是个营销大师，知道怎样掌握节奏，他们手里的武器并没有全拿出来。这样看来中国跟美国的 AI 差距可能还在加大。

第四，大语言模型最牛的是，它不是填空机，而是能完整地理解这个世界的知识。这次很多人从技术上、从产品体验上分析 Sora，强调它能输出 60 秒视频，保持多镜头的一致性，模拟自然世界和物理规律，实际这些都比较表象，最重要的是 Sora 的技术思路完全不一样，因为这之前我们做视频做图用的都是 Diffusion，你可以把视频看成是多个真实图片的组合，它并没有真正掌握这个世界的知识。现在所有的文生图、文生视频都是在 2D 平面上对图形元素进行操作，并没有适用物理定律。但 Sora 产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。所以我理解这次 OpenAl利用它的大语言模型优势，把 LLM 和 Diffusion 结合起来训练，让 Sora 实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出 2D 的范围模拟真实的物理世界。这都是大模型的功劳。

这也代表未来的方向。有强劲的大模型做底子，基于对人类语言的理解，对人类知识和世界模型的了解，再叠加很多其他的技术，就可以创造各个领域的超级工具，比如生物医学蛋白质和基因研究，包括物理、化学、数学的学科研究上，大模型都会发挥作用。这次 Sora 对物理世界的模拟，至少将会对机器人具身智能和自动驾驶带来巨大的影响。原来的自动驾驶技术过度强调感知层面，而没有工作在认知层面。其实人在驾驶汽车的时候，很多判断是基于对这个世界的理解。比如对方的速度怎么样，能否发生碰撞，碰撞严重性如何，如果没有对世界的理解就很难做出一个真正的无人驾驶。

所以这次 Sora 只是小试牛刀，它展现的不仅仅大真实世界有了理解和模拟之后，会带来新的成果和突破。

第五，OpenAl 训练这个模型应该会阅读大量视频。大模型加上 Diffusion 技术需要对这个世界进行进一步了解，学习样本就会以视频和摄像头捕捉到的画面为主。一旦人工智能接上摄像头，把所有的电影都看一遍，把 YouTube 上和 TikTok 的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，而视频传递的信息量又远远超过一幅图，这就离 AGI 真的就不远了，不是10年20年的问题，可能一两年很快就可以实现。

也有产品经理宋健老师泼了凉水，观点还是很有参考价值的，媒体过度宣传的时候头脑要冷。

1. 平台的角度，抖快视频号本质上还是以视频为载体的“社交平台”，特效甚至视频化本身只是个形式。做产品的肯定知道从零建一个社交平台到底有多难，需要天时地利人和，技术只是其中的变量之一。
2. 信息论的角度，生成式视频的信息量不如真实拍摄大。一个真实拍摄远远不是视频本身，比如一个30岁的男人和一个20岁的女人对话，表达、语气、表情的背后都是他们积累了50年的数据的总和。这些是生成式当前无法替代的。而且用户对这些细节很敏感。
总结一下：
1. 如果说，希望通过借助 sora 这种视频生成式技术，干掉人拍的视频，把视频行业变成一个“人纯粹消费机器工业化内容”的局面，我认为是没戏的。这不是第八次第四次工业革命，而是对需求的无知。
2. 但如果说，希望通过借助新技术，让人和人之间产生新的连接，激活新的创作产能，我觉得是有戏的。但也得尊重行业规律，日拱一卒的去通过“技术”迭代“生态”，而不是直接把技术强怼给用户。
3. 2的难点是，你们都发朋友圈了，抖快视频号又不是傻子，会给空间让你们颠覆么。