大模型日报（12月4日学术篇）

LLM Space • 2024-12-04 20:03 • 产品 • 63 views

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告：ResearchFlow — 奇绩F23校友的开发的深度研究产品，PC端进入RFlow的分析报告，可直接点击节点右侧的小数字展开节点，登录后可在节点上直接“询问AI”，进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

信号

VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by VIdeo SpatioTemporal Augmentation

当前大型多模态模型 (LMM) 在处理和理解长时间或高分辨率视频方面面临重大挑战，这主要是由于缺乏高质量的数据集。为了从以数据为中心的角度解决这个问题，我们提出了 VISTA，这是一个简单但有效的视频时空增强框架，它从现有的视频字幕数据集中合成长时间和高分辨率的视频指令跟踪对。VISTA 在空间和时间上结合视频以创建具有延长持续时间和增强分辨率的新合成视频，然后生成与这些新合成视频相关的问答对。基于这一范例，我们开发了七种视频增强方法并整理了 VISTA-400K，这是一个旨在增强长时间和高分辨率视频理解的视频指令跟踪数据集。对我们的数据进行各种视频 LMM 的微调，在四个具有挑战性的长视频理解基准上平均提高了 3.3%。此外，我们推出了第一个全面的高分辨率视频理解基准 HRVideoBench，我们的微调模型在该基准上实现了 6.5% 的性能提升。这些结果凸显了我们框架的有效性。

https://tiger-ai-lab.github.io/VISTA/

Diffusion Meets Flow Matching: Two Sides of the Same Coin

流匹配和扩散模型是生成建模中两个流行的框架。尽管看起来很相似，但社区中对它们的确切联系存在一些困惑。在这篇文章中，我们的目标是消除这种混乱，并表明扩散模型和高斯流匹配是相同的，尽管不同的模型规范可能导致不同的网络输出和采样计划。这是个好消息，这意味着您可以互换使用这两个框架。

https://diffusionflow.github.io/

HuggingFace&Github

混元视频开源推理代码和模型权重

混元视频是一种新颖的开源视频基础模型，其视频生成性能可与领先的闭源模型相媲美，甚至优于它们。HunyuanVideo 具有一个综合框架，该框架集成了多项关键贡献，包括数据管理、图像-视频联合模型训练以及旨在促进大规模模型训练和推理的高效基础设施。此外，通过有效的模型架构和数据集扩展策略，我们成功训练了一个具有超过 130 亿个参数的视频生成模型，使其成为所有开源模型中最大的模型。

混元视频进行了大量的实验，并实施了一系列有针对性的设计，以确保高视觉质量、运动多样性、文本-视频对齐和生成稳定性。根据专业人工评估结果，HunyuanVideo 的表现优于之前的先进模型，包括 Runway Gen-3、Luma 1.6 和 3 个表现最好的中文视频生成模型。通过发布基础模型及其应用程序的代码和权重，我们旨在弥合闭源和开源视频基础模型之间的差距。这一举措将使社区中的每个人都能尝试自己的想法，从而培育一个更具活力和生机的视频生成生态系统。