大模型日报（12月7-8日学术篇）

LLM Space • 2024-12-08 20:56 • 产品 • 71 views

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告：ResearchFlow — 奇绩F23校友的开发的深度研究产品，PC端进入RFlow的分析报告，可直接点击节点右侧的小数字展开节点，登录后可在节点上直接“询问AI”，进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

信号

From Slow Bidirectional to Fast Causal Video Generators

当前的视频扩散模型实现了令人印象深刻的生成质量，但由于双向注意力依赖性，在交互式应用中遇到了困难。生成单个帧需要模型处理整个序列，包括未来。我们通过将预训练的双向扩散变压器调整为即时生成帧的因果变压器来解决这一限制。为了进一步减少延迟，我们将分布匹配蒸馏 (DMD) 扩展到视频，将 50 步扩散模型蒸馏为 4 步生成器。为了实现稳定和高质量的蒸馏，我们引入了基于教师 ODE 轨迹的学生初始化方案，以及监督具有双向教师的因果学生模型的非对称蒸馏策略。这种方法有效地减轻了自回归生成中的错误积累，尽管在短片段上进行训练，但仍允许长时间的视频合成。得益于 KV 缓存，我们的模型支持在单个 GPU 上以 9.4 FPS 的速度快速流式生成高质量视频。我们的方法还可以实现零样本流式视频到视频的翻译、图像到视频和动态提示。

https://causvid.github.io/

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

本文提出用腿式机器人解决视觉和语言导航问题，这不仅为人类提供了灵活的指挥方式，还允许机器人在更具挑战性和混乱的场景中导航。然而，将人类语言指令一直翻译成低级腿部关节动作并非易事。我们提出了 NaVILA，这是一个两层框架，将视觉-语言-动作模型 (VLA) 与运动技能统一起来。NaVILA 不是直接从 VLA 预测低级动作，而是首先以语言的形式生成具有空间信息的中级动作（例如，“向前移动 75 厘米”），作为视觉运动 RL 策略的输入以供执行。NaVILA 大大改进了现有基准上的先前方法。我们新开发的 IsaacLab 基准测试也展示了同样的优势，具有更逼真的场景、低级控制和真实世界的机器人实验。

https://arxiv.org/abs/2412.04453

MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos

我们提出了一个系统，该系统可以从动态场景的随意单目视频中准确、快速、稳健地估计相机参数和深度图。大多数传统的运动结构和单目 SLAM 技术都假设输入视频以具有大量视差的静态场景为主。在没有这些条件的情况下，这种方法往往会产生错误的估计。最近的基于神经网络的方法试图克服这些挑战；然而，当在具有不受控制的相机运动或未知视野的动态视频上运行时，这种方法要么计算成本高，要么很脆弱。我们展示了深度视觉 SLAM 框架的惊人有效性：通过对其训练和推理方案进行仔细修改，该系统可以扩展到具有不受约束的相机路径的复杂动态场景的真实世界视频，包括具有很小相机视差的视频。对合成视频和真实视频进行的大量实验表明，与之前和并发工作相比，我们的系统在相机姿势和深度估计方面明显更准确、更稳健，运行时间更快或相当。