大模型日报(12月7-8日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月7-8日 学术篇)

信号

01

From Slow Bidirectional to Fast Causal Video Generators

当前的视频扩散模型实现了令人印象深刻的生成质量,但由于双向注意力依赖性,在交互式应用中遇到了困难。生成单个帧需要模型处理整个序列,包括未来。我们通过将预训练的双向扩散变压器调整为即时生成帧的因果变压器来解决这一限制。为了进一步减少延迟,我们将分布匹配蒸馏 (DMD) 扩展到视频,将 50 步扩散模型蒸馏为 4 步生成器。为了实现稳定和高质量的蒸馏,我们引入了基于教师 ODE 轨迹的学生初始化方案,以及监督具有双向教师的因果学生模型的非对称蒸馏策略。这种方法有效地减轻了自回归生成中的错误积累,尽管在短片段上进行训练,但仍允许长时间的视频合成。得益于 KV 缓存,我们的模型支持在单个 GPU 上以 9.4 FPS 的速度快速流式生成高质量视频。我们的方法还可以实现零样本流式视频到视频的翻译、图像到视频和动态提示。
大模型日报(12月7-8日 学术篇)
https://causvid.github.io/
02

NaVILA: Legged Robot Vision-Language-Action Model for Navigation

本文提出用腿式机器人解决视觉和语言导航问题,这不仅为人类提供了灵活的指挥方式,还允许机器人在更具挑战性和混乱的场景中导航。然而,将人类语言指令一直翻译成低级腿部关节动作并非易事。我们提出了 NaVILA,这是一个两层框架,将视觉-语言-动作模型 (VLA) 与运动技能统一起来。NaVILA 不是直接从 VLA 预测低级动作,而是首先以语言的形式生成具有空间信息的中级动作(例如,“向前移动 75 厘米”),作为视觉运动 RL 策略的输入以供执行。NaVILA 大大改进了现有基准上的先前方法。我们新开发的 IsaacLab 基准测试也展示了同样的优势,具有更逼真的场景、低级控制和真实世界的机器人实验。

大模型日报(12月7-8日 学术篇)

https://arxiv.org/abs/2412.04453
03

MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos

我们提出了一个系统,该系统可以从动态场景的随意单目视频中准确、快速、稳健地估计相机参数和深度图。大多数传统的运动结构和单目 SLAM 技术都假设输入视频以具有大量视差的静态场景为主。在没有这些条件的情况下,这种方法往往会产生错误的估计。最近的基于神经网络的方法试图克服这些挑战;然而,当在具有不受控制的相机运动或未知视野的动态视频上运行时,这种方法要么计算成本高,要么很脆弱。我们展示了深度视觉 SLAM 框架的惊人有效性:通过对其训练和推理方案进行仔细修改,该系统可以扩展到具有不受约束的相机路径的复杂动态场景的真实世界视频,包括具有很小相机视差的视频。对合成视频和真实视频进行的大量实验表明,与之前和并发工作相比,我们的系统在相机姿势和深度估计方面明显更准确、更稳健,运行时间更快或相当。
大模型日报(12月7-8日 学术篇)
https://arxiv.org/abs/2412.04463



推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/25019.html

Like (0)
Previous 2024-12-07 04:19
Next 2024-12-08 20:57

相关推荐

  • DeepSeek和ChatGPT在学术研究哪家强(一)

    DeepSeek横空出世,那么,DeepSeek和ChatGPT在学术研究上哪家强? 抱歉沉寂了近一年之久,直到DeepSeek横空出世,因为产品诞生于杭州,又对硬件算力的突围而出…

    2025-01-27
    167
  • 智谱,闷声不响发了个「100w 长文本模型」

    最近各家模型发的都挺勤,一会一个 SOTA,一会一个遥遥领先。 可能有不少朋友有点「审美疲劳」,但我还是乐在其中的。 加上不是赶上了「价格战」嘛,我就经常去各家开发平台逛逛。 一是…

    2024-08-14
    435
  • 大模型日报(12月12日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-12-12
    97
  • 万字长文:AI陪伴产品的终极解法?

    关注Super的朋友应该都有看到先前的两篇文章:Character.ai和星野的深度分析(没看过的自己戳),在和很多相关方向创业者交流的过程中,也不断的在思考,这两个产品似乎不错,…

    2023-11-27
    218
  • 大模型日报(10月17日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-10-17
    91
  • 大模型日报(12月20日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-12-20
    55
  • 字节的Coze、扣子和GPTs,有什么区别?

    本来是不想写这篇文章的,但是近两天看了几家写的,要么浮于表面,要么错误连篇,本少女就按耐不住了,写了下我对 coze、扣子、GPTs的理解,欢迎大家来我们的 Agent 交流群探讨…

    2024-02-05
    619
  • 大模型日报(11月12日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-11-12
    129
  • AI智能涌现:为何普通人都值得理解Ta?

    在一个明亮的手术室里,一台机器人正在进行着一项复杂的心脏手术。它的动作精确无误,避免了人手可能导致的任何颤抖或误差。然而,这台机器人并不只是按照预定的程序在操作——它在学习,在不断…

    2023-10-08
    170
  • 新DeepSeek V3让我一键生成超美卡片!这款免费插件太香了!

    前几天大家都在狂欢,为什么?因为DeepSeek V3 0324升级了!评测显示,它在审美能力上已经稳居Claude 3.5和3.7之间的水平。但更让人兴奋的是: 几乎免费,不用翻…

    2025-03-27
    100