大模型日报(1月13日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(1月13日 学术篇)

信号

01

VideoRAG: Retrieval-Augmented Generation over Video Corpus

现有的RAG方法主要集中在从文本中检索和整合知识,近年来一些研究才开始探索图像(或文本-图像对)作为外部知识源。然而,视频作为一种快速扩展但尚未充分利用的媒介,提供了前所未有的多模态丰富性,尤其是其结合了时间动态、空间细节和多模态线索,可以捕捉复杂的过程、上下文相关的交互和非语言信号,这是静态模态(如文本和图像)往往无法传达的。
本论文提出了一种新的框架——VideoRAG,旨在通过更全面地利用视频内容,增强现有的RAG框架。VideoRAG不仅能够从大规模视频库中检索相关视频,还能够将视频中的视觉和文本元素融入到答案生成过程中。为实现这一目标,本文结合了最新的“大型视频语言模型”(LVLMs),这些模型能够直接处理包含视觉和文本信息的视频内容,从而更有效地捕捉视频的多模态特性。
然而,视频的文本描述(如字幕)往往并不可得,因此,本文进一步提出了一种简便有效的解决方案:利用自动语音识别技术(ASR)从视频中生成文本转录,使得即便在没有显式文本注释的情况下,也能够利用视频的视觉和文本模态。
实验结果表明,VideoRAG框架在使用WikiHowQA和HowTo100M数据集进行验证时,相较于传统的RAG基线方法,显著提高了性能。这些实验验证了视频在RAG系统中的有效利用,为多模态知识的检索与生成提供了新的视角。
大模型日报(1月13日 学术篇)
https://arxiv.org/abs/2501.05874
ResearchFlow链接:https://rflow.ai/flow/f80d100b-5156-4f85-bc3c-f002d751b4b8
02

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

本文提出了一种新的机器人操作系统,解决了现有视觉-语言模型(VLM)在低层次机器人操作中的应用限制。现有的VLM主要基于2D视觉数据,缺乏执行精确低层操作所需的3D空间理解能力,因此在非结构化环境中的操作任务面临挑战。传统的做法是通过微调VLM,但这需要大量的高质量机器人数据且微调后的模型往往缺乏通用性。
为此,本文提出了物体中心中介表示方法,将交互原语(如点或向量)与物体的典型空间相结合,以便更好地连接高层推理与低层操作任务。通过采用普适的6D物体姿态估计模型,可以规范化物体并描述其在交互过程中的刚性变换。此外,单视角3D生成网络被用来生成物体网格,VLM则通过预测交互点和方向,识别任务相关的原语并估计它们的空间约束。
为了克服VLM推理中的幻觉问题,本文引入了自我修正机制,结合交互渲染和原语重采样实现闭环推理。最终,动作通过约束优化计算,并使用姿态跟踪确保鲁棒的实时控制。
本文的创新之处在于:1) 提出了物体中心的交互表示方法,有效弥合了高层推理与低层操作的差距;2) 提出了不依赖VLM微调的双闭环开放词汇操作系统;3) 通过实验验证了该方法在多种操作任务中的零-shot泛化能力,具有自动化生成机器人操作数据的潜力。
大模型日报(1月13日 学术篇)
https://arxiv.org/abs/2501.03841
ResearchFlow链接:https://rflow.ai/flow/86cf5a77-326b-420e-b44a-3e8349595e58

 HuggingFace&Github

01

Insanely Fast Whisper

功能亮点
  • 极速自动转录:其最大优势在于 “Insanely Fast”,即能以极快速度对音频进行转录。
  • 说话人分割识别:具备精准的说话人分割功能,可区分不同说话人。
大模型日报(1月13日 学术篇)
https://github.com/Vaibhavs10/insanely-fast-whisper


推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/32730.html

Like (0)
Previous 2025-01-13 19:10
Next 2025-01-14 08:37

相关推荐