大模型日报(7月1日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(7月1日 学术篇)

论文

01

Web2Code:适用于多模态大语言模型的大规模的网页到代码数据集和评估框架

多模态大型语言模型(MLLMs)在诸如图像、视频和音频等多种理解和生成任务中表现出令人瞩目的成功。然而,当前的MLLM在理解网页截图和生成相应的HTML代码方面表现出令人意外的糟糕。为了解决这个问题,我们提出了Web2Code,一个由新型大规模网页到代码数据集和评估框架组成的基准,用于微调智能体的网页理解和HTML代码转换能力。我们利用预训练的LLMs来增强现有的网页到代码数据集,并生成大量新的网页图像。具体而言,输入是网页图像和指令,而响应是网页的HTML代码。我们还在响应中包含了关于网页内容的多样自然语言问答对,以实现对网页内容的更全面理解。为了评估模型在这些任务中的性能,我们开发了一个评估框架,用于测试MLLM在网页理解和网页到代码生成方面的能力。大量实验证明,我们提出的数据集不仅有利于我们提出的任务,而且在一般的视觉领域中也有效,而先前的数据集导致性能更差。我们希望我们的工作将有助于开发适用于基于网络内容生成和任务自动化的通用MLLM。我们的数据和代码将在https://github.com/MBZUAI-LLM/web2code上提供。
大模型日报(7月1日 学术篇)http://arxiv.org/abs/2406.20098v1
02

通过1,000,000,000份个人设定大规模创建合成数据

我们提出了一种新颖的以人设驱动的数据合成方法,利用大语言模型(LLM)中的各种视角来创建多样化的合成数据。为了充分利用这种规模化的方法,我们引入了Persona Hub——一个从网络数据中自动筛选出的10亿多样化的人设集合。这10亿人设(约占全球总人口的13%),作为世界知识的分布式载体,可以获取LLM内几乎每一个视角,从而促进为各种场景规模化地创建多样化的合成数据。通过展示Persona Hub在合成高质量数学和逻辑推理问题、说明书(即用户提示)、知识丰富的文本、游戏NPC和规模化工具(函数)方面的应用案例,我们证明了以人设驱动的数据合成是多功能、可扩展、灵活且易于使用的,可能推动合成数据创建和实际应用中的范式转变,这可能对LLM研究和发展产生深远影响。

大模型日报(7月1日 学术篇)http://arxiv.org/abs/2406.20094v1

03

PoliFormer: 使用Transformer扩展On-Policy强化学习,产生出色的导航者

我们介绍了PoliFormer(策略Transformer),这是一个仅使用RGB图像进行室内导航的智能体,通过大规模的强化学习端到端训练,在不经过适应训练的情况下在真实世界中泛化。PoliFormer使用了一个具有因果Transformer解码器的基础视觉Transformer编码器,实现了长期记忆和推理。它在多个环境中进行了数亿次交互的训练,利用并行化的、多机器的展开来高效训练并实现高吞吐量。PoliFormer是一个高超的导航者,在LoCoBot和Stretch RE-1机器人以及四个导航基准测试中产生了最先进的结果。它突破了先前工作的瓶颈,在CHORES-S基准测试中实现了空前的85.5%的目标导航成功率,绝对改善率达28.5%。PoliFormer还可以轻松扩展到各种下游应用,如对象跟踪、多对象导航和无需微调的开放词汇导航。
大模型日报(7月1日 学术篇)http://arxiv.org/abs/2406.20083v1
04

无监督条件下分割任何对象

摘要:在不需要人工标注的情况下,我们提出了一种用于全图像分割的无监督 SAM(UnSAM)模型。UnSAM利用一种分而治之的策略来“发现”视觉场景的分层结构。我们首先利用自顶向下的聚类方法将未标记的图像划分为实例/语义级别的段。对于段内的所有像素,采用自底向上的聚类方法将它们迭代地合并成更大的群组,从而形成一个分层结构。这些无监督的多粒度掩模然后被用来监督模型训练。在七个流行数据集上评估,UnSAM获得了与监督对照 SAM 相竞争的结果,并在AR方面超越了以前的无监督分割技术的最佳水平11%。此外,我们还表明,监督 SAM 也可以从我们的自监督标签中受益。通过将我们的无监督伪掩模集成到SA-1B的地面真实掩模中,并仅使用SA-1B的1%,一个轻度半监督的 UnSAM 往往可以对被监督 SAM 忽略的实体进行分割,将在SA-1B上的AR超过6.7%,AP超过3.9%。
大模型日报(7月1日 学术篇)http://arxiv.org/abs/2406.20081v1
05

LLaRA: 超级智能体学习数据加速视觉语言策略

大语言模型(LLMs)配备了广泛的世界知识和强大的推理能力,能够处理跨领域的各种任务,通常将其构建为对话式指令-响应对。在本文中,我们提出了LLaRA:大语言和机器人助理,这是一个将机器人动作策略建模为对话形式,并在训练时利用辅助数据来提供改进响应的框架。具有视觉输入的LLMs,即视觉语言模型(VLMs),能够将状态信息作为视觉-文本提示进行处理,并在文本中生成最佳策略决策。为了训练这样的行动策略VLMs,我们首先介绍了一个自动化流程,从现有的行为克隆数据中生成多样化且高质量的机器人指令数据集。根据为机器人任务量身定制的对话式公式生成的结果数据集,对一个进行微调的VLM可以生成有意义的机器人动作策略决策。我们在多个模拟和真实环境中的实验表明了所提出的LLaRA框架的领先性能。代码、数据集和预训练模型均可在https://github.com/LostXine/LLaRA获取。

大模型日报(7月1日 学术篇)http://arxiv.org/abs/2406.20095v1
HuggingFace&Github

01

Magpie

Magpie 是一种从已对齐的大型语言模型中合成大规模对齐数据的自动合成方法。它的目的是解决现有开源数据创建方法无法有效扩展,限制了公共对齐数据集多样性和质量的问题。利用已对齐 LLM 的自回归性质,只输入左侧模板,LLM 就能生成用户查询及其相应的响应。通过这种方式,Magpie 从 Llama-3-Instruct 中合成了 400 万条指令及其对应的响应,并从中选取了 30 万条高质量实例。研究发现,使用 Magpie 数据集微调的 Llama-3-8B-Base 模型,在某些任务上的性能可与官方的 Llama-3-8B-Instruct 媲美,尽管后者经过了一千万数据点的监督微调和反馈学习。
大模型日报(7月1日 学术篇)https://github.com/magpie-align/magpie
02

HuatuoGPT-Vision

HuatuoGPT-Vision 是一系列基于 PubMedVision 数据集训练的高性能医疗多模态语言模型(MLLM)。 它包括两个版本: HuatuoGPT-Vision-7B 和 HuatuoGPT-Vision-34B,在多个医疗 VQA 数据集上表现优异,显著提高了语言模型在医学视觉任务上的能力。这些模型是 HuatuoGPT 项目的重要成果,将医学视觉知识大规模注入到多模态语言模型中,以提升其在医疗领域的应用。
大模型日报(7月1日 学术篇)https://github.com/FreedomIntelligence/HuatuoGPT-Vision
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/07/14414.html

Like (0)
Previous 2024-07-01 00:15
Next 2024-07-01 23:48

相关推荐