大模型日报(1月17日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

Reka AI 刘琦:多模态大模型与 Agent 的训练与实践 | 奇绩潜空间活动报名

【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。

第五季第四期潜空间邀请到的嘉宾是 Reka AI 联合创始人,香港大学计算机科学系助理教授 ——刘琦,他分享的主题是《多模态大模型与智能 Agent 的训练与实践:打造自动化驱动的智能化未来》。

大模型日报(1月17日 学术篇)

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(1月17日 学术篇)

信号

01

FAST: Efficient Robot Action Tokenization

自回归序列模型,如基于变换器的视觉-语言行动(VLA)策略,能够有效捕捉复杂的和具有普遍性的机器人行为。然而,这类模型要求我们选择一种对连续动作信号的标记化方式,这决定了模型预测的离散符号如何映射到连续的机器人动作。我们发现当前的机器人动作标记化方法,基于简单的逐维度、逐时间步的分箱方案,通常在学习高频机器人数据中的灵活技能时表现不佳。为了解决这个问题,我们提出了一种基于压缩的机器人动作标记化方案,基于离散余弦变换。我们的标记化方法——频域动作序列标记化(FAST),使得可以训练用于高度灵活和高频任务的自回归VLA,在这些任务中标准的离散化方法完全失败。基于FAST,我们发布了FAST+,一种通用的机器人动作标记器,已在100万条真实机器人动作轨迹上进行训练。它可以作为一个黑盒标记器,用于各种机器人动作序列,具有多样的动作空间和控制频率。最后,我们展示了当结合π0 VLA时,我们的方法可以扩展到训练1万小时的机器人数据,并且与扩散VLA的性能匹配,同时将训练时间缩短最多5倍。
大模型日报(1月17日 学术篇)
原文链接:https://www.pi.website/research/fast
ResearchFlow链接:https://rflow.ai/flow/f139d22e-4f7a-4852-88ac-b3d1407937a4
02

RepVideo: Rethinking Cross-Layer Representation for Video Generation

随着扩散模型的引入,视频生成取得了显著的进步,这显著提高了生成视频的质量。然而,最近的研究主要集中在扩大模型训练的规模,而对表示对视频生成过程的直接影响提供的见解有限。在本文中,我们初步研究了中间层特征的特征,发现不同层的注意力图存在很大差异。这些变化导致语义表示不稳定,并导致特征之间的累积差异,最终降低相邻帧之间的相似性,并对时间连贯性产生负面影响。 为了解决这个问题,我们提出了 RepVideo,这是一种用于文本到视频扩散模型的增强表示框架。通过积累来自相邻层的特征以形成丰富的表示,这种方法可以捕获更稳定的语义信息。然后将这些增强的表示用作注意力机制的输入,从而提高语义表达能力,同时确保相邻帧之间的特征一致性。广泛的实验表明,我们的 RepVideo 不仅显著增强了生成准确空间外观的能力,例如捕获多个对象之间的复杂空间关系,而且还提高了视频生成的时间一致性。
大模型日报(1月17日 学术篇)
原文链接:https://vchitect.github.io/RepVid-Webpage/
ResearchFlow链接:https://rflow.ai/flow/ebbc6e79-1bfb-4cab-aa38-55ad38490d0b

 HuggingFace&Github

01

FellouAI / eko – 使用自然语言构建生产就绪的代理工作流

是一个可用于生产环境的 JavaScript 框架,使开发者能够创建可靠的代理,涵盖从简单命令到复杂工作流的各种场景。它提供了一个统一的接口,可在计算机和浏览器环境中运行代理。
  • 🚀 一站式开发:从简单指令到自动生成工作流,快速发布到浏览器环境。
✨ 跨平台支持:支持 Node.js、浏览器及浏览器插件,一框架解决多平台自动化问题。
🏃 高性能感知:结合 A11y 伪代码与SoM感知方案,大幅提升精度并降低成本。
🔐 可干预机制:多层 Hook,确保 Agent 执行全流程可观测、可介入、可优化,保障生产安全。
大模型日报(1月17日 学术篇)
大模型日报(1月17日 学术篇)
大模型日报(1月17日 学术篇)
https://github.com/FellouAI/eko


推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/33121.html

Like (0)
Previous 2025-01-17 20:32
Next 2025-01-19 22:16

相关推荐