多模态方向观察:图像视频与3D生成

我们专注于跟进前沿技术,旨在让这次AI的进步为所有愿意创造的人共享。最近我们梳理了AI战略方向的框架性认知(非常可读,已经过数位小白及学者级读者检验),处于小范围分享状态,如果您感兴趣,请扫码加入我们的早期读者群。

多模态方向观察:图像视频与3D生成

Preface
前言

多模态、3D和视频生成是三个相关但又各自独立的领域,它们在技术和应用层面上有所交叉。

随着技术的发展,这三个领域正在不断融合,创造出新的应用和体验。

根据最新的技术及工具,我们整理出下列文档,:https://miracleplus.feishu.cn/docx/Rl21d6hmOohXplxhrgccFxAqnJb?from=from_copylink

我们正在进行调研和讨论。希望可以回答如下几个问题:

  • 多模态的学术前沿都在做哪些探索?

  • 多模态方向3D/视频生成产品形式?

  • 未来技术、产品、商业的机会/挑战方向?

Research
学术探索

图像生成

图像生成研究有悠久历史,技术也发生了几次迭代,从生成对抗网络(GAN)扩散模型(Diffusion Model)
生成对抗网络(GAN)包含生成器(Generator)判别器(Discriminator)两个主要模块。模型通过两个模块互相“竞争”来进行图像生成:生成器尝试生成尽可能真实的图像从而“骗过”判别器;判别器则尝试甄别真实图像和生成图像,以“识破”生成器的生成
在GAN系列工作中,较为知名的工作包括CycleGAN, StyleGAN等。StyleGAN可以生成高分辨率的人脸图像,是GAN后期(可能)最为流行的模型架构。
多模态方向观察:图像视频与3D生成
StyleGAN生成高清人脸图像
近年来,图像生成领域占据主导地位的模型架构是扩散模型(Diffusion Model)。扩散模型另辟蹊径,其主要思想是一种先对图像增加噪声,再逐步去噪的过程,其中如何去噪还原图像是算法的核心部分。而它的最终算法能够从一张随机的噪声图像中生成图像。
多模态方向观察:图像视频与3D生成
扩散模型的训练和生成过程,上方训练过程给图像增加噪声作为训练数据,下方生成过程从噪声中预测
无论是生成对抗网络还是扩散模型,早期的工作都无法做到可控生成。尽管模型可以生成高质量的图像,但用户无法对生成结果进行控制。因此,后期的一个重点研究方向是可控生成,控制方式包括用文字控制,还有使用空间布局(spatial layout condition)、图片(in-context image condition)等控制。
跨模态生成的应用方面,StableDiffusion和Midjourney已经火爆到出圈;学术方面,ControlNet获得ICCV 2023 Best Paper。可控的、高质量的图像生成至今仍是学术界非常关心的话题。

视频生成

与图像生成类似,早期的视频生成模型也是以GAN模型为主,不再赘述。近年来,扩展模型已经在视频生成领域占据了主导地位。在这一领域,早期的工作主要关注将预训练的文生图迁移到视频领域,核心思路将是生成多帧图片,再合并形成视频,从而实现文生视频。代表性工作包括Make-A-Video、Tune-A-Video等。
多模态方向观察:图像视频与3D生成
视频生成模型Tune-A-Video的训练与推理流程
将图片生成模型扩展到视频是一个简洁轻便的方法,同时也存在较多的局限性,例如生成时长较短缺乏对物体的运动控制等,因此,近期学术界开始关注使用<文本,视频>数据对训练原生的文生视频模型,代表性的工作包括VideoPoet、StableVideoDiffusion等。
多模态方向观察:图像视频与3D生成

3D生成

1.单场景3D重建

神经网络辐射场(NeRF)与3D高斯泼溅(3D Gaussian Splatting)是单场景3D重建近几年最常用的AI网络。二者区别在于NeRF是利用神经网络隐式储存3D空间信息, 3D Gaussian Splatting是通过显式储存3D高斯椭球来保存3D信息。
NeRF
其中NeRF的大致思想为从摄像机发射一条射线到三维空间中,在该射线上等间距或不等间距的置放采样点,再利用神经网络计算采样点的RGB颜色与Density。当我们得到了空间中3维点的颜色与密度后,通过体渲染公式,我们可以将该射线上的所有点采样点的颜色合成为屏幕上一个像素点的颜色。那么我们如果要渲染一张3D物体的图片,就需要从屏幕上的每个像素点发射射线进行采样,预测和渲染。
多模态方向观察:图像视频与3D生成
3D Gaussian Splatting
3D Gaussian Splatting用一句话简单概括就是有一堆3D球悬浮在空中,通过删减或者增加3D球,上色,渲染,重建出3D物体。具体的来说:
首先是通过传统的3D计算机视觉(非AI)进行多识图的匹配,在每个匹配到的点的位置初始化一个三维高斯球。
多模态方向观察:图像视频与3D生成
但是我我们可以看到他的精度非常低,完全没有应用价值,所以我们要进一步去在需要的地方增加三维高斯球,在没有多余重复表达的地方删减。具体的,如果高斯球过大,那么我们通过分裂他达到增加高斯球的目的;如果过小,那我们直接复制一个高斯球。当高斯球的密度值没有超过阈值,那么我们直接删除,以此节省存储空间。
多模态方向观察:图像视频与3D生成

2.多模态3D重建

Toy data Multi-modal 3D Diffusion
结合上面两个技术我们可以很明显的发现,其实他们都只能应用在单一的场景上,也就是说换一个全新的场景,我们就要重新训练一遍。那么这时候就需要大模型diffusion的帮助。
其中最经典的是Zero1-to-3,他们认为图像大模型知道三维空间的样子,只是不知道在哪个condition下生成哪个视图。于是该方法在image diffusion的基础上引入了camera matrix当作控制变量,对大模型微调得到了3D diffusion模型。这样我们获得了根据输入文字描述/图片生成对应3D场景的多模态能力。
后续文章Zero1-to-3++, SYNC DREAMER 等工作则是发现该方法虽然可以控制生成相应视角的图片,但是连续性较差。于是着重通过增加先验知识或者改进表征方式使其达到试图连续性。
Real Scene Multi-modal 3D Diffusion
以上的diffusion based的3D模型都有较多的致命缺陷:
1.重建出的物体质量极低(比如模糊)
2.都是Toy data:只能重建卡通形象等物体,重建一个真人或者看起来真实的电脑还处于不可能的状态。(由于模糊等问题)
3.无法重建真实场景: 为了diffusion更好的效果,目前重建出的物体都是被从背景环境中切割出来的。
对于第一个问题,meta提出了3D Gen。3D Gen是通过集成Meta 3D AssetGen 和 Meta 3D TextureGen模型的能力合理重建toy data相对高质量的纹理,也保持了较好的几何合理性与连续性。
对于问题2和3,目前暂未解决。

跨模态理解

本章讨论模型对跨模态互信息理解和对齐的能力。这里的跨模态特别指文本视频模态。
模型对跨模态互信息理解能力不足,会表现出多模态幻觉(Multimodal Hallucination):模型生成了和图像内容不符的信息。多模态幻觉的原因,一般是由大模型对图片的理解不够准确,或生成时过度依赖文本情境而忽略了图片情境。
如何得知模型对跨模态互信息的理解能力呢?
  1. 判别式(Judgement)的评测方法:要求多模态大模型判断一段文本和图片中的内容是否一致
  2. 生成式(Description)的评测方法:要求多模态大模型对给定的图片生成一段详细描述,并测试描述中和图片不符的内容的比例。
多模态方向观察:图像视频与3D生成

使用判别式和生成式方法验证跨模态模型理解能力

如何消除多模态幻觉?
在幻觉消除方面,已有研究大多从以下四个方面入手
  1. 提升训练数据标注质量,通过提供详细的图像描述和问题回答示例的注释,帮助训练和评估模型的幻觉检测能力。代表工作如M-HalDetect。
  2. 改进训练方式,通过收集人们关于模型幻觉的反馈提示,增强跨模态模型的可信度。代表工作如RLHF-V。
  3. 改进解码方式,通过在数学上引入惩罚项等方法,减少解码过程中的统计偏差。代表工作如OPERA、Visual Contrastive Decoding。
  4. 对生成结果进行后处理,通过识别和纠正生成文本中的幻觉部分,改善跨模态模型的输出。代表工作如Woodpecker。
对多模态幻觉的研究除可以消除幻觉、提升模型的可靠性和用户的信任度外,更有利于揭示多模态模型的内在机制和潜在缺陷,推动模型架构和训练方法的改进。
具有良好理解能力的多模态大模型能进行细粒度任务:
  1. 定位(grounding/localization):输入一段文本描述要求模型输出它在图片/视频中的位置。
  2. 字幕生成(dense captioning):针对给定的图片、视频,关注其中的多个不同的片段,生成多个不同的字幕。
图片-文本大模型中,拥有定位能力的模型包括Qwen-VL、InternLM-XComposer系列、Shikra等。在视频-文本大模型中,拥有定位能力的大模型包括VTimeLLM、TimeChat、HawkEye等。
高效帧采样是视频理解大模型的重要优化手段。理论上,视频理解大模型需要将整个视频作为输入。视频的数据太庞大了,这在实践上是不可能的。事实上,视频理解大模型一般采用帧采样的方法对视频中的帧进行等距采样,以多张图片作为输入。
实践往往发现,有时很长的一段视频中只有一小段和问题相关,甚至只需要一帧中的静态画面就能回答很多问题。这种现象称为单帧偏置(single frame bias)。因此对于视频-文本多模态大模型,如何对视频进行更高效的帧采样对算法性能和效率都有重要影响,是一个关键的研究问题。常见的方法是先用一个专门的采样器先根据文本输入对视频中的帧进行简单筛选,再作为主体模型的输入。代表工作有ATP、SeViLA、LSTP 等。

Process

技术发展

本章节结合行研研究和校友访谈整理

多模态与视频生成

  1. 图像视频生成的技术路线:Diffusion or AR

短期内Diffusion更适合图像视频生成,但从长远来看,两者可以并存组合:AR可以更自然的结合不同模态,时序上非常成熟,在视频生成有很好的结合空间Diffusion不方便融合不同模态,但在图像上效果更好;因而可以用AR预测时序、语义、细节,用Diffusion不断预测未来的视频帧
多模态技术的理想Scaling系统:高层次的整体规划(剧本)+每一帧的细节设计(镜头)
需要一个完整的系统,同时找到适合scaling的架构:既包括高层次的总体规划,也包括每一帧的细节设计,这样才能生成高质量的视频内容;类似于电影拍摄的剧本和每一帧的设计。
多模态方向观察:图像视频与3D生成
  1. 结合视频理解视频生成的端到端模型

长远看两者可以结合,用unify的方式来做;但短期内,视频生成目前看可能只达到GPT-1或者2的水平。
文生视频的前提→长视频理解
没有语言出现之前,生物也可以理解世界——但语言是通往更高层理解的媒介;目前方法和体系:大量数据标注去学若只用真实世界数据,很难学习我们生活中少见的组合,比如:熊猫骑自行车。
物理公式如何注入其中,使得人可以控制是一个非常重要的问题。
  1. 世界模型和内容生成的异同

相似之处:都需要高层次的规划和设计、预测未来的事件或状态,并据此进行控制,涉及对复杂动态系统的理解和模拟;都需要某种形式的离散表征来进行预测。
不同之处:内容层面的视频生成需要考虑时序连贯性和视觉一致性,World model则更广泛,需处理更多变量和不确定性;
未来的World model可能会采用不同的方法,如JEPA,且可能更侧重于在latent space中进行预测,而不是在pixel space。
多模态与3D生成
  1. 3D技术路线:NeRF vs 3DGS 

  • 计算量与存储空间
  • NeRF通过神经网络来表示场景的体积密度和颜色,在进行推理时需要不断切换视角并重新渲染;导致计算量巨大,如果没有进行适当的优化,NeRF难以实现实时渲染。
    3DGS方法进行三维重建可能会占用更多的存储空间,因为它需要存储显式建模的数据;3DGS提供了一种显式建模的方法,可以显著降低渲染时间和训练成本;3DGS提供了更直观的外观表征,对于不熟悉三维技术的用户来说更加易于理解,提高了用户友好性
  • 可控性与可解释性
  • NeRF为黑盒模型,3DGS相对更透明和可编辑,也提供了可控的路径,允许艺术家和设计师手动编辑和创作
  • 几何精度
  • 3DGS在渲染和训练上的性能优势使其成为一种有吸引力的选择,尤其是在对几何精度要求不高的场景中需从底层技术上进行突破,以解决现有3D生成技术的局限性。这可能涉及图形学、数学和几何表征的创新。
  1. 数据集构建与Scaling

  • 可扩展性
  • NeRF和3DGS需要精确的多视角辅助来实现更精准的重建,目前无法直接扩展;生成式的方法包括直接从文字图片生成和从多视角2D图片重建三维模型;
    Stable Zero和Meta的Gen-3D从2D模型改进而来,但参数量不足,无法实现真正的扩展
  • 数据规模与质量
  • Mesh成熟且应用广泛,易于产生高质量数据,多来源于游戏、动画等虚拟世界;但通常由内容制作厂商控制,存在版权问题,且与现实世界有差异;体积渲染技术可以将点云转换回Mesh,但反向转换应用场景有限。
  • 模态融合
  • Sora模型整合了对三维世界的理解,显示了3D生成与多模态理解之间的联系;3D数据与2D图片结合相对容易实现,有助于数据集构建;
    3D与文字结合需要依赖于三维模型识别和理解的进步,实现自动标注;利用自动标注模型生成更多的数据对,通过添加文字指引,可以提升生成内容的质量。
    如何降低3D建模的成本,同时保持必要的建模精度?
    当前3D生成技术存在畸变等问题,导致生成的模型难以直接应用于特定行业。模型的网格结构和贴图质量直接影响视觉效果,而真实空间复刻时,生成模型的空间尺寸精度至关重要。如建筑物高度的误差会直接影响模型的可用性。
    3D在不同行业间差异

    例如,建筑业需要将管线、楼板、墙体和窗户等元素单独建模,而游戏行业则需要精细的人物模型和服装。

    游戏和动画对于模型的精细度、布线的合理度要求最高,需要符合行业原生作业流程的需求。现有AI模型通常从整体结构出发,这在某些情况下可能不够灵活,且技术上很难用模块化 + 搭积木的方式解决。

    如何让三维重建做得更好?

    可以利用扫描仪和相机位置信息,以提高生成模型的精度

    也可以考虑放弃依赖点云和相机位姿信息,转而通过图像本身进行空间计算,生成更精确的3D模型。

    从2D到3D的转换,如通过点云估计初始网格,存在精度和可用性的悖论。高精确度需要高密度的网格,但这可能导致模型过于复杂,难以使用。人类在建模时通常采用自顶向下或自中间向两边的方法,逐步解决布线问题。


Introduction
相关产品介绍

万物灵犀
空间智能时代的 Instagram,用 3D 分享每一种生活。
项目简介:万物灵犀 Onceness 在打造空间智能时代的 Instagram,让每个人用 3D 媒介分享生活,从而定义下一代社交娱乐形式。用户只需拍一段视频,就可以生成 3D 现实场景,然后在多模态 AI 辅助下添加特效或放置 3D 物体,让场景好看又好玩;最后可以分享发布给好友,也可以穿越到任何人发布的 3D 场景里互动体验,实现真正的瞬息全宇宙。
官网:www.onceness.com
王翔宇:万物灵犀 CTO

ToC

初期产品定位:
可能以三维滤镜和三维肖像为主,类似于三维版的美图秀秀和妙鸭相机;通过3D扫描技术捕捉用户的人体肖像,并添加可交互三维滤镜贴纸,生成好玩的三维场景。
交互体验与社交玩法:
产品初期会确保滤镜效果新奇有趣且易于使用,同时提供足够的交互选项;开发新的社交互动方式(如3D虚拟形象的互动、虚拟空间的聚会等),增加用户粘性,提高应用的活跃度和用户留存率
商业模式
主要以付费定制与广告/推广为主;提供一些需要额外付费的定制化滤镜或美颜效果;通过广告和推广活动吸引用户,同时提供一些免费的基础功能以吸引下载和使用。
硬件设备
从纯手机交互,到未来可能会扩展到XR设备,提供更沉浸式体验;进一步考虑不同硬件设备的性能和兼容性,确保各种设备体验。
ToB
技术与服务优化:
  • 材质和光照上,针对不同材质和光照条件进行优化,提高模型真实感和视觉效果;
  • 提供丰富多样的创意模版供企业用户使用,满足各式各样的营销需求;
  • 优化三维扫描服务,还原产品细节并且生成高质量的产品模型。
三维营销模式:
产品展示:通过三维模型展示其产品,提供更直观的视觉效果和增强购买决策;
营销宣传:开发三维营销广告,利用互动性和视觉冲击力,帮助企业提高广告效果;
XR设备:未来企业可能需要将三维内容与XR设备结合,提供现实感的用户体验;
软件解决方案:提供低技术门槛的软件解决方案,帮助企业轻松管理和展示三维内容。
商业模式
主要是服务收费合作推广,一方面向企业收取服务费用;另一方面开展企业合作,共同开发新的营销策略和推广活动,分享收益。


创源引擎(3D世界生成)
可编辑超大规模三维世界生成引擎。
项目简介:创源视界是国内首先提出使用AI快速且精确生成大规模三维场景的企业,致力于解决现阶段三维建模耗时长、成本高和模型复用率低等行业痛点。主要产品是 AI 驱动的可编辑三维世界生成引擎,首先切入数字城市、建筑设计等城市大规模场景生成,未来服务于具身智能、数字城市、设计规划、自动驾驶、三维合成数据、AR / VR元宇宙、游戏建模等多个高新领域。
蔡一铭:CEO,中国科学院长春光机所博士,发表多篇顶刊论文,负责多个重点科研项目,深度参与高分专项工程,参与的项目曾获得科技进步一等奖。
ToC
赛道选择:
  • 3D建模与可视化:在传统建模方式需要高学习成本的现实情况下,大模型赋予98%的普通用户也能够实现三维建模,才能将现阶段通用的2D屏幕显示真正升格到3D空间显示,例如朋友圈变成可交互的3D朋友圈;进一步通过用户共建,配合硬件设备发展,支持AR/VR/XR的真正普及。
  • 内容创作与分享:提供平台和工具,鼓励用户在社交媒体和视频分享平台上,生成和分享自己的3D内容,如室内设计、虚拟展览、世界创作等。
  • 教育与娱乐:提供在线教育和娱乐内容,如3D建模教程、虚拟游戏等,利用3D技术增强学习体验和娱乐效果。

ToB

智慧城市和智慧园区
初期选择智慧城市和智慧园区方向,解决建模慢和成本高的问题,特别是可视化底座的建模,在极少输入的情况下(例如单视图)完成合理生成大规模场景,并在一定程度上实现实时性的空间建模;同时支持多模态输入的情况下室内外同步建模
室内设计
市场背景:现有的室内设计市场存量大,但成本高;市场需要解决的不仅是家具的使用,而是如何让场景布置更合理。
利用3D建模合成数据技术,替换素材库方案,通过用户输入(如图像、文字、视频)生成个性化的3D内容,提供真正个性化的家装设计和可视化服务。

产品落地问题

  • 技术限制:3D生成技术存在局限性,如模型精度和畸变问题,需要从底层技术进行突破。
  • 市场需求:不同行业对3D建模的需求不同,需要细粒度模块化,以便更好地融入现有工作流。
  • 隐私和数据安全:在智慧城市和智慧园区项目中,需要考虑隐私和数据安全问题,避免涉及敏感信息。
  • 技术路线选择:最终决定专注于偏设计类的建模和合成数据,避免直接竞争。
技术深耕与定制化
即使是通用引擎,也需要深耕特定行业,提供定制化的解决方案。如建筑业需要管线、楼板、墙体等的详细建模,现阶段的技术必须做定向的修改才能满足需求。
精度问题
1. 空间尺寸精度,如建筑物的尺寸在生成模型中的准确性;
2. 模型精度,模型的网格结构和贴图质量,影响最终视觉效果。
技术和行业的结合
  • 数字经济(智慧物业、智慧园区、数字城市、数字地球等):解决了实时三维生成(建模)之后,又重塑行业现状的潜力,但需要解决隐私和数据采集的问题。
  • 影视和游戏:这些行业对3D模型的精度和细节要求较高,是技术应用的难点。
  • 建筑:不需要高面数的mesh,需要独立的楼板、玻璃、管线等。
 极佳科技(世界模型与多模态数据)
专注通用视觉大模型的公司,愿景是技术和商业闭环拓展数字世界AGI,走向物理世界AGI。
GigiaStudio体验链接:https://studio.gigaai.cc/
项目简介:极佳科技围绕视频生成和世界模型,打造通用智能的新一代数据引擎。极佳科技自主研发的视频生成大模型「视界一粟YiSu」,相关应用场景已经接近 Sora 效果,并已经开启大规模产品化应用。更进一步,极佳科技正在从视频生成走向世界模型,在自动驾驶、具身智能等多个场景实现了规模化落地和商业闭环。
黄冠:CEO,清华大学博士,超过 10 年 AI 技术和产业经验;AI、自动驾驶、大模型等方向连续创业经验,累计主导或参与融资数亿美金;微软、三星、地平线等知名公司工作经历,多次带领百人 AI 研发团队。

市场需求-多模态高质量数据

生成/具身端到端训练推理,带来高质量数据的需求:
  • 通用机器人走向端到端、Video-in Action-out的新范式——一切问题就变成了高质量数据的问题,需要高质量端到端的数据去迭代,去训练这样生成式智能或具身智能。
  • 自动驾驶(如特斯拉V12)是标准的端到端的Video-in Action-out(视频输入-动作输出)系统。

商业模式:平台型产品

新一代的数据平台,面向端到端自动驾驶和通用机器人。平台底层是一个以视频生成和世界模型为核心的基础模型。
  • DriveDreamer自动驾驶世界模型:已经实现了大规模的商业落地应用。
  • WorldDreamer通用世界模型:使用Transformer架构,目标是通用视频生成和世界模型;
未来发展:物理世界模拟器
  • 世界模型和物理世界模拟器在端到端解决方案(Video-in Action-out系统)中扮演着关键角色。
  • 端到端解决方案成为趋势,需要从视频输入到动作输出的全过程优化。

Discussion

圆桌对谈

  1. 作为年轻团队,选择创业方向时的考虑?做产品的逻辑和出发点是什么?

王翔宇:一是我本身对摄影史和艺术比较感兴趣,站在宏观的摄影史角度,100年前的照相机主要是二维拍摄,而三维扫描可能成为未来的摄影媒介。二是我们团队之前基于三维扫描做过广告特效等工作,但这些工作需要在大型摄影棚进行,成本非常高。NeRF和Gaussian Splatting技术出现后,我们发现即使不在高端摄影棚中也能实现不错的三维扫描效果,通过重新打光和渲染,可以将三维扫描模型包装成用户喜欢的视觉效果呈现给用户。
蔡一铭:首先,我们认为3D是未来的趋势,未来几年可能会出现一些替代性的硬件产品,现在是进入的好时机。其次,我们一开始入营项目是合成数据方向的,曾经尝试打造一个纯真实世界的图像生成大模型,但发现解决不了数据采集问题;即使有了3D场景,可以在其中采集图像,但这种图像与真实世界也存在差异。所以最终我们转变思路,走到更容易落地的方向做 B 端业务。
黄冠:第一,我们团队做人工智能已有十几年时间,有过CV、智能摄像头、智慧城市、自动驾驶等多个方向的项目经历。大模型是发展趋势,除了语言模型之外,我们认为视频生成和世界模型是两个有很大潜力的领域。第二个考虑点是商业模式。AI 1.0的商业模式并不理想,我们一直在思考AI的商业模式。中国的C端市场有很大的机会,同时数据也比较适合交易,综合上述思考确定了现在的方向。
  1. 对于未来合成数据在未来,特别是在多模态应用上的思考?

王翔宇:合成三维数据本身在技术上有一定难度,而且三维数据集本身也存在数量少、质量参差不齐以及版权问题等挑战。另一种方法可能是先合成二维的视频数据,然后通过NERF或者高斯重建等技术,通过视觉视频数据重建出三维数据。
蔡一铭:合成数据的关键在于其有效性。未来智能体要实现自我迭代和训练的,需要解决数据实时生成或交互之后环境改变的问题,但目前三维合成数据还不能保证训练的有效性,因此还是要从视频的角度去做突破。
黄冠:核心在于两方面。首先是技术方面,无论是生成还是重建、视频还是3D,短期内每种技术各有各的问题,没有一种技术既真实、又通用、效率高且效果好。因此,从技术角度而言,中短期可能需要这些技术的组合;长期来看,可能还是以视频和多视角生成为核心。其次是应用层面,不同场景如自动驾驶、机器人生成或其他场景的应用需求各有差异,也会影响短期内要落地什么样的技术。
  1. 目前思考的关键性问题以及看到的机会?

黄冠:每种方式都有各自的问题。视频生成这个领域目前还处于比较早期的阶段,可能相当于 GPT-1 或 GPT-2 的阶段。其实有很多可以与 3D 结合的点(用 UE 还是用 3D 重建去做一些约束),生成和重建也可以结合起来。
蔡一铭: NeRF 和 3D GS 可能不能成为一种通用的技术。各行业的需求很明确,但每个行业对 3D 模型的具体要求不一样,比如建筑业要求模型不要太复杂,游戏行业则要求布线精确等等,目前只能在一个行业中做专门优化,所以我们在思考哪个行业做更适合我们。另外,我们现在用的是基于 Transformer 架构直接做回归初始网格的方案,但目前这种方案并不适配 Mesh 网格的表征方式。因此, 3D 领域可能会有新的表征,或者已有表征的优化出现。
王翔宇:已有的渲染管线基本上都只支持 Mesh,NeRF 和 3D GS 还比较新,我们在探索如何把 3D GS 和已有的 Mesh 形态相互转换,希望基于三维扫描出来的模型最终能生成内容。解决的方法或是把扫描出来的东西转化成 Mesh,但这样会丢失部分精度;或是探索新的表征方式,研究出可以兼容很多不同模式的新的渲染管线。另外,目前三维领域还是蓝海,需求尚未得到释放,机会在于如何把三维工具包装成用户喜欢的产品。

如果大家对AI+图像视频、3D生成感兴趣的话,欢迎来参加我们的活动。
多模态方向观察:图像视频与3D生成

Hope
小编寄语
我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,关于AI战略方向的框架性认知,处于小范围分享状态,如果你感兴趣,可以扫描以下二维码和我联系。
多模态方向观察:图像视频与3D生成

大模型空间站再次感谢各位朋友的支持!

— END —


原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/07/13977.html

Like (0)
Previous 2024-07-25 18:22
Next 2024-07-26 01:45

相关推荐

  • 「草莓」OpenAI o1大模型信号看板大汇总!!

    贡献人:Angela、naixu、Alex、zechen、常楠、智勇、Ollie  Introduction 导引 2024年9月13日凌晨, OpenAI 震撼发布🍓「草莓」o1…

    2024-09-19
    384
  • 大模型日报(6月24日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-24
    159
  • 最全大模型数据集分享系列一 | 数学数据集

                              在人工智能领域,大模型的数学能力是衡量其智能水平的重要标准之一,高质量的数学数据集对大模型的训练至关重要。目前,大模型在数学领域…

    2024-08-01
    322
  • The theory of LLMs|朱泽园ICML演讲整理

    编者:Ollie Li 视频原链接:https://www.youtube.com/watch?v=yBL7J0kgldU 欢迎大家观看原版视频。本文仅供学习。如有侵权,请联系我们…

    2024-08-28
    262
  • BEV常见的开源算法系列一 | BEV空间的生成

    BEV感知系列分享是整数智能推出的一个全新分享系列,在这个系列中,我们将介绍BEV感知相关的算法和数据集等内容。BEV感知系列主要分为以下几篇文章: BEV感知,是下一代自动驾驶感…

    2022-11-14
    248
  • 大模型日报(5月11~12日 资讯篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-12
    124
  • 大模型日报(6月11日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-06-11
    93
  • 大模型日报(8月16日 资讯篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-16
    230
  • 大模型日报(5月31日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-05-31
    122
  • 大模型日报(7月4日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-04
    177