大模型日报(12月13日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月13日 学术篇)

信号

01

Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos

论文介绍了一种从互联网立体视频中挖掘4D的方法。它能够实现大规模、高质量、动态、度量3D 重建,具有相机姿势和长期 3D 运动轨迹。团队使用 Stereo4D 制作了超过 10 万个真实世界 4D 场景的数据集。
学习从图像中理解动态 3D 场景对于从机器人到场景重建等应用至关重要。然而,与其他大规模监督训练能够快速取得进展的问题不同,直接监督恢复 3D 运动的方法仍然具有挑战性,因为获取地面真实注释存在根本困难。论文提出了一个从互联网立体广角视频中挖掘高质量 4D 重建的系统。系统将相机姿态估计、立体深度估计和时间跟踪方法的输出融合并过滤成高质量的动态 3D 重建。论文使用这种方法以具有长期运动轨迹的世界一致、伪度量 3D 点云的形式生成大规模数据。通过训练 DUSt3R 的变体来预测来自现实世界图像对的结构和 3D 运动,证明了这些数据的实用性,表明对重建数据进行训练可以推广到各种现实世界场景。
大模型日报(12月13日 学术篇)https://arxiv.org/abs/2412.09621
02

Byte Latent Transformer: Patches Scale Better Than Tokens

Meta的新论文介绍了字节潜在变换器,这是一种新的字节级 LLM 架构,它首次在规模上与基于标记化的 LLM 性能相匹配,同时显著提高了推理效率和稳健性。BLT 将字节编码为动态大小的补丁,这些补丁作为计算的主要单位。补丁根据下一个字节的熵进行动态分割,在数据复杂性增加需要时分配更多的计算和模型容量。论文提出了第一个翻转控制扩展研究,研究了具有 4T 训练字节的字节级模型,其参数高达 8B。结果证明了在没有固定词汇表的情况下扩展在原始字节上训练的模型的可行性。由于在数据可预测时动态选择长补丁,训练和推理效率均得到提高,同时推理和长尾泛化也得到了定性改进。总体而言,对于固定的推理成本,BLT 通过同时增加补丁和模型大小,显示出比基于标记化的模型更好的扩展性。
大模型日报(12月13日 学术篇)
https://scontent.fhkg10-2.fna.fbcdn.net/v/t39.2365-6/470135129_1314438233309836_4712217603129928862_n.pdf?_nc_cat=111&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=_rrHgJZzzMcQ7kNvgEo-LSS&_nc_zt=14&_nc_ht=scontent.fhkg10-2.fna&_nc_gid=AFf37OD0l6TXX6O7-eFHN9q&oh=00_AYAmfgrVe0MKgCfi86l4VWh7XDi6iWSFsFngZxS5qA44gQ&oe=67619608
03

Clio: Privacy-Preserving Insights into Real-World AI Use

Anthropic推出新系统,Clio。Clio可以自动识别世界各地 Claude 的使用趋势。Clio 是一种自动分析工具,可以对现实世界的语言模型使用情况进行隐私保护分析。它以类似于 Google Trends 等工具的方式让我们深入了解 claude.ai 的日常使用情况。它也已经在帮助改进安全措施。
Clio 的工作原理是收集真实世界的对话,在删除识别信息的同时对其进行总结,然后对这些总结进行聚类以揭示总体见解。此过程在安全的环境中进行——只有最终的高级见解才对人类分析师可见。
大模型日报(12月13日 学术篇)
https://assets.anthropic.com/m/7e1ab885d1b24176/original/Clio-Privacy-Preserving-Insights-into-Real-World-AI-Use.pdf
04

Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel

文章提出了一个名为自我精炼数据飞轮(SRDF)的新方法,用于提高视觉语言导航(VLN)任务中合成指令-轨迹对的质量。当前VLN任务中,合成数据的质量,尤其是语言的忠实度,尚未得到充分研究,传统的扩展数据量和环境的做法效果有限。作者通过迭代式的协作,在导航器和指令生成器之间实现数据质量的自动评估和优化。
  1. 自我精炼数据飞轮(SRDF):该方法通过导航器与指令生成器之间的循环反馈,提高生成的指令与轨迹的对齐质量。首先,使用现有的人工标注数据训练指令生成器,生成指令并与导航器共同优化,确保生成的指令在多场景下具有高保真度。
  2. 导航器作为数据筛选器:使用训练好的导航器评估指令-轨迹对的质量,采用路径保真度评分(nDTW和SPL)作为指令与轨迹对齐的衡量标准。导航器的高性能确保了对合成数据的有效筛选,避免了传统度量方法(如CLIP分数)对多场景语义和方向性对齐的局限性。
  3. 迭代优化:生成器和导航器通过多次迭代提升性能,生成器在优化过程中不断提高指令质量,导航器则借助更好的数据提升其在实际任务中的表现。
  4. 高质量数据集构建:通过该方法,不仅提升了指令生成的质量,还创建了一个更具挑战性的、高质量的合成VLN数据集。
  5. 性能突破:在R2R数据集上,SRDF方法显著提高了指令跟随和生成的表现,首次在指令跟随任务中超越了人类表现(76%的SPL)。此外,该方法还成功实现了跨任务的迁移能力,在多个下游VLN任务中表现出色。
大模型日报(12月13日 学术篇)
https://arxiv.org/abs/2412.08467
05

Large Concept Models: Language Modeling in a Sentence Representation Space

论文提出了一种新型的“大概念模型”(LCM),旨在突破当前大型语言模型(LLMs)在处理语言和模态时的局限,特别是现有模型在抽象推理和层次化处理方面的不足。传统的LLMs主要依赖于基于transformer的结构,并在单一词元层面进行处理,缺乏多层次的推理和规划能力。本文提出的LCM方法将推理转移到语言和模态独立的抽象嵌入空间,通过显式的层次化结构来模拟人类的认知和信息处理方式,从而生成更连贯且高效的长文本输出。
  1. 抽象层次的推理:与传统LLMs不同,LCM在抽象的概念嵌入空间中进行推理,而非基于词元。这意味着其推理过程不依赖于特定语言或模态,而是在语义层面建模,从而实现语言和模态的独立性,支持跨语言和跨模态的通用性。
  2. 概念嵌入(Concept Embeddings):LCM使用SONAR(一个预训练的句子嵌入模型)将输入文本分割成句子,并将每个句子编码成概念嵌入。然后,通过LCM进行进一步处理,生成新的概念嵌入,再通过SONAR解码回原始的词元或其他语言的表达。此方法避免了传统模型中的语言依赖,并可无缝地进行语言间转换。
  3. 显式层次化结构:LCM的架构支持长文本的层次化处理。通过在更高抽象层次进行推理和结构化,LCM能够更好地生成长文本,同时保持逻辑一致性和可读性。这种结构也方便了用户的交互式编辑,提升了文本的可修改性和可控性。
  4. 零样本泛化能力:由于LCM的推理是在语言和模态无关的概念层面进行的,因此能够在不同语言或模态之间进行零样本推理,无需额外的微调或数据支持。例如,LCM可以直接处理任何SONAR支持的语言和模态,实现跨语言的任务推理和生成。
  5. 模块化与可扩展性:与多模态LLMs可能出现的模态竞争问题不同,LCM允许概念编码器和解码器独立开发和优化,新增语言或模态时不必担心相互干扰,从而提高系统的灵活性和扩展性。
  6. 优化的推理架构:LCM通过更短的序列长度和有效的噪声调度策略,解决了传统transformer模型在处理长上下文时的复杂性问题。此外,LCM在推理过程中采用了基于扩散(diffusion)的多种架构设计,进一步提高了推理效率。
大模型日报(12月13日 学术篇)
https://arxiv.org/abs/2412.08821
06

GPD-1: Generative Pre-training for Driving

论文提出了一种名为Generative Pre-training for Driving (GPD-1)的统一模型,用于解决现有自动驾驶模拟器在场景演化和多个任务集成方面的局限性。传统的自动驾驶模拟器往往针对特定任务(如地图生成、运动预测或轨迹规划)进行优化,缺乏跨任务的统一框架,导致无法充分利用场景中的时间演化和动态交互信息。本文的创新点在于通过一个生成预训练模型,整合地图、动态代理和自车信息,从而实现场景演化的生成性预测。
  1. 统一场景表示:GPD-1将地图、代理和自车信息作为一组统一的token进行编码,采用自回归Transformer架构,并引入场景级别的注意力掩码,以捕捉自车、代理和地图之间的双向依赖关系。这种方法有效地整合了各个元素,使得模型能够在不同的任务中共同作用。
  2. 分层位置编码器:对于自车和代理,作者提出了一种分层位置编码器,能够有效地将鸟瞰图(BEV)中的位置和朝向转换为离散的token。这种方法显著减少了特征空间中的噪声,提高了位置编码的精确度。
  3. 地图信息的离散化表示:为简化地图信息的处理,GPD-1使用向量量化自动编码器(VQ-VAE)将自车视角下的语义地图压缩成离散token。这种方法避免了直接预测连续的地图坐标,从而简化了学习过程并增强了模型的泛化能力。
  4. 多任务能力:GPD-1在没有任何微调的情况下,能够执行场景生成、交通模拟、闭环仿真和运动规划等任务。例如,在场景生成中,模型可以初始化场景并平滑生成代理、地图和自车信息;在交通模拟中,给定真实地图和初始代理状态,模型能够预测后续帧的演化;在闭环仿真中,模型根据自车轨迹动态调整代理轨迹;在运动规划中,模型生成自车轨迹以响应提供的代理和地图信息。
  5. 状态-of-the-art表现:通过进一步的微调,GPD-1能够在多个下游任务中达到最先进的性能,特别是在nuPlan基准中的运动规划任务中表现突出。
大模型日报(12月13日 学术篇)
http://arxiv.org/abs/2412.08643v1
07

Multimodal Latent Language Modeling with Next-Token Diffusion

论文提出了一种名为Latent Language Modeling (LatentLM)的方法,旨在统一处理离散数据(如文本和代码)与连续数据(如视频、音频和机器人动作)的生成任务。传统的多模态生成模型往往依赖于管道(pipeline)或外部工具进行模块化处理,导致在不同模态之间传递信息时发生信息丢失,限制了性能。为了克服这一问题,LatentLM采用了一种全新的思路,利用自回归Transformer模型统一生成离散和连续数据。
  1. 连续数据的表示与生成:LatentLM使用变分自编码器(VAE)将连续数据表示为潜在向量,并通过引入下一步令牌扩散(next-token diffusion)技术,自回归地预测潜在向量。这种方法使得在Transformer隐藏状态的条件下,扩散头生成潜在向量,并通过VAE解码器重构生成的连续数据。
  2. 离散数据的生成:对于离散数据,LatentLM使用共享的Transformer骨干网络,通过软最大(softmax)头进行下一令牌预测。与传统方法不同,LatentLM通过σ-VAE维持潜在空间的方差,确保生成的表示适合自回归解码。
  3. 统一的多模态生成与理解:LatentLM通过语言建模的范式,将离散和连续数据的生成过程统一,从而简化了实现并可以共享信息。与基于量化的连续数据表示方法相比,LatentLM能够更高效地进行数据压缩,并保持较低的重建损失。
实验结果与优势:
  1. 图像生成:在ImageNet上的图像生成任务中,LatentLM表现出与基于扩散模型或离散令牌的模型竞争的性能,尤其在模型规模扩展上,LatentLM的效果超过了DiT模型。
  2. 多模态大语言模型:在文本、图像-文本对和交织数据的训练下,LatentLM在语言建模、文本到图像生成和视觉语言理解等任务上,均优于Transfusion和基于向量量化图像令牌的模型。
  3. 语音合成:在文本到语音合成任务中,LatentLM也超过了传统系统。由于使用连续表示进行编码,LatentLM的压缩比远高于基于量化令牌的方法,这提升了训练和推理的效率。
大模型日报(12月13日 学术篇)
http://arxiv.org/abs/2412.08635v1
08

3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark

3DSRBench,一个针对大规模多模态模型(LMMs)进行3D空间推理能力评估的基准,旨在深入研究现有LMMs在处理图像和视频中的空间关系,特别是在3D场景中的表现。尽管最近的LMMs在图像描述、视觉问答、视觉定位、决策制定等任务中取得了显著进展,但它们在3D感知和空间关系理解方面仍然存在局限,这对于实现更高级的推理和交互至关重要。
技术创新与贡献:
  1. 3DSRBench基准的构建:本文首次提出了一个全面的3D空间推理基准,涵盖了12种问题类型,集中在高度、位置、方向和多物体推理四大类空间关系上。通过手动标注2,100个自然图像的视觉问答对,确保了问题覆盖了包括刚性物体、人类、动物及隐式概念(如车上的标志或广告牌上的箭头)等广泛的开放词汇实体。
  2. 多视角数据与复杂场景的挑战:为了进一步提高评估的全面性,研究还对672个多视角合成图像进行了标注,涉及不同的6D视角(3D位置和3D方向),这对于LMMs在复杂场景下的空间推理尤为重要。通过这些数据,能够有效评估模型在不同视角下的表现,尤其是对常见视角和不常见视角的推理能力,后者在机器人和嵌入式AI中的应用尤为常见。
  3. FlipEval策略:为了增强评估的鲁棒性,3DSRBench引入了FlipEval策略,通过设计问题与答案的配对方式,使得模型在推理时能够面临不同类型的挑战,避免过于简单的回答,增强推理的多样性和复杂度。
  4. 数据分布和多样性:基准特别关注数据分布的平衡,包括不同类型问题的对称数据(如同一问题给出正反答案的图片对)和问题的多样性,确保3D空间推理评估的全面性和可靠性。
实验与结果:
通过在3DSRBench上对多种开源和专有的LMMs进行基准测试,本文揭示了当前模型在3D空间推理方面的弱点,尤其是在处理3D位置、姿态、方向等复杂空间关系时,模型的表现仍明显低于人类水平。特别是,方向推理(如“位于左侧”)和复杂空间推理(如“面向物体的视角”)仍然是挑战。
大模型日报(12月13日 学术篇)
http://arxiv.org/abs/2412.07825v1

HuggingFace&Github

01

Sora 中文 提示词 指南

Sora 中文的提示词指南,各种场景使用指南。学习怎么让它听你的话。兼顾了 Sora 的多场景应用。
Sora | 索拉 是一个AI模型,可以从OpenAI的文本指令中创建逼真和富有想象力的场景。OpenAI正在教AI理解和模拟运动中的物理世界,目标是训练模型,帮助人们解决需要现实世界交互的问题。
如果你是 sora 的学习者,希望获取到 sora 的最新的咨询和相关的开发项目,以及 sora 相关的开源项目,这里 awesome-sora 提供了 sora 相关的Sora 中文指南,指令指南,应用开发指南,精选资源清单,Sora 开发者精选工具框架。
Sora可提供以下功能:
  • 文本到视频
  • 动画
  • 扩展生成的视频
  • 视频到视频编辑
  • 连接视频
  • 图像生成(文本到图像)
在这个存储库中,你会发现各种可以和索拉一起使用的提示。我们根据视频的风格分配了不同的标签,让你可以根据标签快速找到提示示例(Prompt)和生成的视频,并根据需要进行修改。
https://github.com/SoraEase/sora-prompt-zh

推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/28912.html

Like (0)
Previous 2024-12-13 18:37
Next 2024-12-14 22:43

相关推荐