大模型日报（6月14日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

开放VLA：一个开源的视觉-语言-动作模型

摘要：通过在互联网规模的视觉语言数据和多样化机器人演示中预训练的大型策略，有潜力改变我们如何教导机器人新技能：我们可以微调这些视觉语言动作（VLA）模型，而不是从零开始训练新的行为，从而获得强大、可泛化的视觉运动控制策略。我们引入了OpenVLA，一个开源VLA模型，参数量为7B，训练集包含多样化的97万真实世界机器人演示。OpenVLA基于Llama 2语言模型，结合了来自DINOv2和SigLIP的预训练特征。具有音效的数据多样性和新模型组件，OpenVLA表现出强大的通用操作能力，在29个任务和多个机器人实体中，绝对任务成功率比RT-2-X（55B）高出16.5％，且参数减少7倍。我们展示了OpenVLA可以有效进行微调以适应新环境，并在多对象和强语言基础能力涉及的多任务环境中表现出强大的泛化结果，胜过了20.4％的从头开始模仿学习方法。我们还探讨了计算效率；作为额外的贡献，我们展示了OpenVLA可以通过现代低秩适应方法在消费级GPU上进行微调，并通过量化有效地进行服务而不影响下游成功率。最后，我们发布了模型检查点、微调笔记本以及我们的PyTorch代码库，支持在Open X-Embodiment数据集上规模化训练VLA。

http://arxiv.org/abs/2406.09246v1

LRM-Zero: 使用合成数据训练大型重构模型

我们提出了LRM-Zero，一个完全在合成的3D数据上训练的大型重建模型（LRM），实现了高质量的稀疏视图3D重建。LRM-Zero的核心是我们的程序化3D数据集Zeroverse，它自动从简单的基本形状中合成，具有随机的纹理和增强（例如，高度场，布尔差异和线框）。与以前的3D数据集（例如Objaverse）不同，那些通常是由人类捕获或制作的，以近似真实的3D数据，Zeroverse完全忽略了现实的全局语义，但在复杂的几何和纹理细节上富有，这些细节在局部上类似甚至比真实对象更复杂。我们展示了我们的LRM-Zero，使用完全合成的Zeroverse进行训练，可以在重建真实世界对象时获得高视觉质量，与在Objaverse上训练的模型相媲美。我们还分析了Zeroverse的几个关键设计选择，这些选择有助于LRM-Zero的能力和训练稳定性。我们的工作表明，作为3D视觉中的核心任务之一的3D重建，可能可以在不考虑真实世界对象的语义的情况下解决。Zeroverse的程序合成代码和交互式可视化可在以下网址找到：https://desaixie.github.io/lrm-zero/。

http://arxiv.org/abs/2406.09371v1

探索大规模全模态预训练的极限

我们提出构建全模态智能，能够理解任何形式并学习通用表示。我们提出一种名为Multimodal Context（MiCo）的可扩展预训练范式，可以在预训练过程中扩大模态数量、数据量和模型参数。通过MiCo，预训练模型在多模态学习中展现出显著涌现能力，评估了10种不同模态的单模态感知基准任务，25项跨模态理解任务以及18项多模态大型语言模型基准任务。我们的模型在性能上建立了37项新的最先进记录。我们希望我们的研究能为全模态智能的发展做出贡献。源代码和模型位于https://github.com/invictus717/MiCo。

http://arxiv.org/abs/2406.09412v1

CS-Bench: 朝着计算机科学领域精通的大语言模型综合基准测试

计算机科学（CS）作为人类智能复杂性的见证，深刻推动了人工智能和现代社会的发展。然而，当前大语言模型（LLMs）社区过于专注于分析特定基础技能的基准（如数学和代码生成），忽视了对计算机科学领域的全面评估。为了弥补这一差距，我们介绍了CS-Bench，这是第一个专门用于评估LLMs在计算机科学中表现的双语（中英文）基准。CS-Bench包括约5K个经过精心策划的测试样本，涵盖了计算机科学的4个关键领域的26个子领域，包括各种任务形式和知识和推理的分支。利用CS-Bench，我们对30多个主流LLMs进行了全面评估，揭示了CS性能与模型规模之间的关系。我们还定量分析了现有LLMs失败的原因，并强调了改进方向，包括知识补充和计算机科学特定的推理。进一步的跨能力实验显示，LLMs在计算机科学领域的能力与它们在数学和编码方面的能力之间存在高度相关性。此外，专门从事数学和编码的专家LLMs在几个CS子领域中也表现出色。展望未来，我们期待CS-Bench成为LLMs在CS领域应用的基石，并开拓新的评估LLMs多样推理能力的途径。CS-Bench数据和评估代码可在https://github.com/csbench/csbench获取。

http://arxiv.org/abs/2406.08587v1

Transformer 遇上神经算法推理者

摘要：Transformer以其简单而有效的架构彻底改变了机器学习。在大规模文本数据集上对Transformer进行预训练为自然语言理解（NLU）任务带来了无与伦比的泛化能力。然而，在需要精确和稳健计算的算法推理任务中，这些语言模型仍然很脆弱。为了解决这一局限性，我们提出了一种新颖的方法，将Transformer的语言理解能力与基于图神经网络（GNN）的神经算法推理器（NARs）的稳健性结合起来。NARs在图形式指定的情况下被证明有效作为算法任务的通用求解器。为了使它们的嵌入可被Transformer访问，我们提出了一种混合架构，采用两阶段训练程序，允许语言模型中的token与NAR的节点嵌入相互参照。我们在CLRS-Text上评估了我们的结果TransNAR模型，这是CLRS-30基准测试的文本版本，并展示了在算法推理方面显著优于仅有Transformer模型的结果，无论是在样本内还是在样本外。

http://arxiv.org/abs/2406.09308v1

HuggingFace&Github

Warp

Warp 是一款基于 Rust 语言开发的 GPU 加速终端应用程序，内置 AI 功能，希望可以提高用户和团队的生产力。Warp 正处于”公开测试”阶段，虽然还有一些需要改进的地方，但已大幅改善了终端使用体验。Warp 的 Rust UI 框架部分已开源，未来还会开放更多客户端代码，但服务器端将保持闭源。

https://github.com/warpdotdev/Warp

GroundingDINO

Grounding DINO 是一个由 IDEA 研究团队开发的强大开放世界目标检测模型，它具有出色的零样本学习性能（COCO 52.5 AP）和微调性能（63.0 AP），支持与 Stable Diffusion、GLIGEN 等模型协作实现灵活的图像编辑，提供丰富的教程和演示，代码和预训练模型开源，是一个功能强大、应用广泛的计算机视觉模型。