大模型日报(1月10日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(1月10日 学术篇)

信号

01

Towards System 2 Reasoning in LLMs:  Learning How to Think With Meta  Chain-of-Thought

本文提出了一种新的框架,即元思维链 (Meta-CoT),它通过明确建模达到特定 CoT 所需的基本推理来扩展传统的思维链 (CoT)。本文提供了来自最先进模型的经验证据,这些模型表现出与上下文搜索一致的行为,并探索了通过过程监督、合成数据生成和搜索算法生成 Meta-CoT 的方法。最后,本文概述了一个具体的管道,用于训练模型以产生 Meta-CoTs,将指令调整与线性搜索跟踪和训练后的强化学习相结合。最后,本文讨论了开放性研究问题,包括扩展法则、验证者角色以及发现新推理算法的潜力。这项工作为在 LLM 中启用 Meta-CoT 提供了理论和实践路线图,为人工智能中更强大和更像人类的推理铺平了道路。
大模型日报(1月10日 学术篇)
原文链接:https://arxiv.org/abs/2501.04682
ResearchFlow链接:https://rflow.ai/flow/f5d7a75a-d8fa-4348-b95e-cb544601142e
02

Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Diffusion 模型在从文本提示或图像生成高质量视频方面表现出令人印象深刻的性能。然而,对视频生成过程(例如摄像机操作或内容编辑)的精确控制仍然是一项重大挑战。现有的受控视频生成方法通常仅限于单一控制类型,缺乏处理不同控制需求的灵活性。在本文中,我们介绍了 Diffusion as Shader (DaS),这是一种在统一架构中支持多个视频控制任务的新方法。我们的主要见解是,实现多功能视频控制需要利用 3D 控制信号,因为视频从根本上说是动态 3D 内容的 2D 渲染。与以前仅限于 2D 控制信号的方法不同,DaS 利用 3D 跟踪视频作为控制输入,使视频扩散过程本身具有 3D 感知能力。 这项创新使 DaS 能够通过简单地操作 3D 跟踪视频来实现广泛的视频控制。使用 3D 跟踪视频的另一个优势是它们能够有效地链接帧,从而显著增强生成视频的时间一致性。在 8 个 H800 GPU 上使用不到 10k 的视频仅进行了 3 天的微调,DaS 在各种任务中展示了强大的控制能力,包括网格到视频的生成、摄像机控制、运动传输和对象操作。
大模型日报(1月10日 学术篇)
原文链接:https://igl-hkust.github.io/das/
researchflow链接:https://rflow.ai/flow/4dc50996-afcc-403d-9eb3-74412f896108


推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/32695.html

Like (0)
Previous 2025-01-09 19:30
Next 2025-01-11 08:51

相关推荐