大模型日报(12月20日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月20日 学术篇)

行云季宇:谁困住了 AI 产业——大型机化的计算机形态与变革的可能性 | 奇绩潜空间活动报名

【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,潜空间定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。

第五季第二期潜空间邀请到的嘉宾是行云创始人兼 CEO ——季宇,在本次活动中季宇将在北京现场与大家面对面交流,他分享的主题是《谁困住了 AI 产业——大型机化的计算机形态与变革的可能性。

大模型日报(12月20日 学术篇)

信号

01

Qwen2.5 Technical Report

本篇技术报告介绍了Qwen系列最新版本——Qwen2.5,展示了该版本在多个方面的改进和创新。Qwen2.5是为了更好地推动大语言模型(LLM)发展而不断优化的成果,具有更高的性能、更多的模型规模、更强的数据处理能力以及更便捷的使用体验。
创新点与贡献:
  1. 多样化的模型规模: Qwen2.5在模型规模上进行了扩展,除了原有的0.5B、1.5B、7B和72B模型外,还新增了3B、14B和32B的版本。这些中等规模的模型在资源有限的场景下更加具有成本效益,填补了当前开放基础模型中对这些规模模型的需求空缺。此外,Qwen2.5-Turbo和Qwen2.5-Plus通过平衡准确性、延迟和成本,提供了更灵活的选择。
  2. 数据处理能力的提升: Qwen2.5的预训练数据量大幅增加,从7万亿个标记提升至18万亿个标记,重点增强了知识、编程和数学等领域的内容。这一增强的数据集支持更广泛的应用,特别是在技术性和数学性问题的处理上。此外,Qwen2.5采用了分阶段的预训练方法,使得模型能够在不同数据混合中进行有效过渡,提升了模型的灵活性和适应能力。
  3. 改进的后训练流程: Qwen2.5的后训练数据也有所增强,涵盖了超过100万条例子,涵盖了监督微调(SFT)、直接偏好优化(DPO)和群体相对策略优化(GRPO)等多个阶段。这些后训练技术的使用确保了模型在实际任务中的高效性和多样性。
  4. 更好的生成能力和工具支持: Qwen2.5在生成能力上取得了显著提升,生成长度从2K tokens增加到8K tokens,支持更加复杂和长篇的文本生成。此外,Qwen2.5还增强了对结构化输入输出(如表格和JSON)的支持,使得模型在处理实际应用中的任务时更加灵活。此外,Qwen2.5-Turbo版本甚至支持最多达100万个tokens的上下文长度,进一步扩展了模型的应用范围。
  5. 混合专家模型的引入: 除了传统的预训练模型,Qwen2.5还推出了Mixture-of-Experts(MoE)模型,如Qwen2.5-Turbo和Qwen2.5-Plus,这些模型能够根据任务需求动态选择专家模型,提高了计算效率并降低了成本。这些模型在与其他先进模型如GPT-4o-mini和GPT-4o的比较中表现出色,展示了Qwen2.5在大规模计算资源下的优越性。
大模型日报(12月20日 学术篇)
https://arxiv.org/abs/2412.15115
ResearchFlow链接:https://rflow.ai/flow/ea26b015-4978-4a96-a781-0387f1a24973
02

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

本文主要推动了数学推理领域的大语言模型(LLM)发展,提出了创新的后训练和奖励建模方法,以提升数学推理能力。作者首先介绍了一种新颖的监督微调(SFT)过程,该过程通过在多领域(如学科交叉、编程和数学等)进行基础模型的训练,再针对数学领域进行微调,从而使模型能够更好地解决复杂的数学问题。通过这一方法,AceMath-7B-Instruct模型在数学推理基准测试中显著超越了前代最佳模型Qwen2.5-Math-7B-Instruct,并接近Qwen2.5-Math-72B-Instruct的表现,展示了其强大的数学推理能力。接着,作者探索了数学专用奖励模型(RM)的训练技巧,特别是如何构建正负样本对、设定训练目标、消除模型偏差等。通过这些优化,AceMath-72B-RM在数学领域的表现超过了现有最先进的奖励模型,如Qwen2.5-Math-72B-RM,并结合AceMath-72B-Instruct和AceMath-72B-RM,在七个数学推理基准测试中取得了最佳的rm@8分数,设立了新的性能标准。
论文还强调了开源的重要性,决定公开AceMath-Instruct和AceMath-RM的模型权重,并共享所有阶段的训练数据。这一举措有助于推动学术界和工业界进一步改进数学推理模型,促进这一领域的快速发展。此外,作者还发布了AceMath-RewardBench,这是一个综合性的奖励模型基准,涵盖多种数据集、不同难度级别,并能评估模型在应对回答风格变化时的鲁棒性。
本文的创新之处在于通过精细的训练和奖励建模方法提升了数学专用模型的推理能力,同时提供了重要的开源资源,推动了数学推理任务的研究和应用。AceMath系列模型在数学推理任务中的表现超过了现有最优模型,为数学和广泛的推理任务提供了更强大的工具,并为今后的奖励模型训练提供了新的方向。
大模型日报(12月20日 学术篇)
https://arxiv.org/abs/2412.15084
ResearchFlow链接:https://rflow.ai/flow/f9509484-d3ae-4afe-9d32-7a6e6bfa1e6d
03

How to Synthesize Text Data without Model Collapse?

本文通过直接将合成数据与人类生成数据混合,研究了非迭代性模型崩塌问题。与传统的通过自生成数据进行迭代训练的方法不同,本文直接通过不同的混合比例将合成数据与人类数据结合,结果显示,合成数据的比例越高,模型性能越差。通过对分布和特征进行统计分析,发现合成数据只覆盖了人类数据分布的一小部分,并且合成的n-gram特征过度集中,这些都导致了覆盖崩塌问题。基于这些发现,本文提出了“Token-Level Editing”(ToEdit)方法,该方法通过对模型高置信度的数据点进行重采样和替换,有效地避免了模型崩塌。ToEdit通过保持分布的覆盖性,并在理论上将测试误差约束在固定的上限内,从而解决了合成数据引发的覆盖问题。
通过广泛的实验,包括从零开始的预训练、持续预训练和监督微调等多种情境,验证了ToEdit方法的有效性,证明了该方法对模型性能的正面影响。本文的创新点主要体现在两个方面:一是首次展示了非迭代性模型崩塌现象,揭示了合成数据对语言模型训练的负面影响;二是提出了基于Token级别编辑的解决方案,并通过实验验证了其在避免模型崩塌、提升模型性能方面的有效性。
大模型日报(12月20日 学术篇)
https://arxiv.org/abs/2412.14689
ResearchFlow链接:https://rflow.ai/flow/0cc6f8b2-b562-47c2-a714-8f7b9a37b071
04

Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents

本文提出了一种创新的系统——提议者-代理-评估者(PAE)框架,用于让基础模型(foundation models)代理自主发现并利用新技能,从而解决未见过的实际任务。该方法的核心贡献在于,代理无需人工监督,就能通过与环境的互动,自动识别和学习有效的技能,并将其应用到实际任务中,尤其是在Web导航等复杂任务中。
创新点与贡献:
  1. 自主技能发现: 传统的基础模型通常依赖人类定义的任务模板,限制了技能的多样性和扩展性。PAE框架的创新之处在于,代理能够自主发现新的任务和技能,而无需人工干预。这些技能可以用于未见过的任务,并通过零-shot方式解决人类注释过的任务,表现出较强的泛化能力。
  2. 技能提议、评估与执行的协同: PAE通过任务提议者生成可行的任务,并利用代理策略尝试这些任务,再通过自动评估者提供奖励信号。评估者基于最终结果(例如网页操作的成功与否)给予稀疏的0/1奖励,帮助代理评估自己的行动是否有效。这种设计极大地减少了对隐藏状态信息的依赖,提升了系统的鲁棒性。
  3. 上下文感知任务提议: 为确保代理能够执行实际的、可行的任务,PAE使用了上下文感知的任务提议者。这些提议者根据任务的环境和约束(例如某些功能是否可用)生成任务,从而避免了不可执行的任务。在实验中,任务提议者甚至能够通过简单的网页名称或用户示范来推断出可执行的任务。
  4. 增强的推理步骤: 在代理执行任务前,PAE设计了额外的推理步骤,使得代理能够反思自己的技能和执行结果。这个反思过程显著提升了代理对未见任务的泛化能力,确保其能够适应不同的实际应用场景。
  5. 强大的零-shot泛化能力: 在多种Web导航任务中,PAE框架展现了卓越的性能。使用LLaVa-1.6作为代理策略的PAE,可以在无需人工监督的情况下,通过与多个网站的互动自动发现有效技能,并能成功应对从未见过的任务指令。这一成果不仅验证了PAE的有效性,还展示了它在多达100个领域中的广泛适应性。
实验结果: 论文通过WebVoyager和WebArena等基准测试,验证了PAE框架的有效性。实验表明,PAE在测试任务上的成功率提高了30%,使得LLaVa-1.6-7B在计算资源使用上比LLaVa-1.6-34B节省了5倍的计算成本,同时在多个Web导航任务中表现优于其他最先进的开源VLM代理(例如Qwen2VL-72B),表现提升了10%以上。
大模型日报(12月20日 学术篇)
https://arxiv.org/abs/2412.13194
ResearchFlow链接:https://rflow.ai/flow/0480b5ff-d3d3-4fbf-b9dc-544b5ecd1fd0
05

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

本文提出了一种新的方法——视觉预测指令微调(VPiT),旨在提升多模态大语言模型(MLLMs)在视觉理解和视觉生成方面的表现。现有的多模态大语言模型通常通过预训练的视觉编码器和语言模型相结合,进行图像和文本的理解和生成,而VPiT则通过扩展视觉指令微调(visual instruction tuning)来实现视觉理解和视觉生成的统一。具体而言,VPiT不仅训练模型生成离散文本标记,还生成连续的视觉标记,并通过扩展至扩散模型(diffusion model)来将这些视觉标记映射回像素空间进行可视化。
创新点与贡献:
  1. 视觉理解与视觉生成的统一: 传统的多模态大语言模型通常将视觉生成与理解分开处理,需要大量的预训练和微调数据。而VPiT通过一种简化的方式,将连续的视觉标记作为输入,训练模型在理解图像内容的同时,也能生成相应的视觉输出。这种方法只需要少量额外的视觉生成数据(如20万条),且在处理时数据与计算效率较高。
  2. 视觉理解与生成的内在联系: 研究表明,视觉理解和生成能力是相互关联且不对称的。增加视觉理解数据能显著提高理解性能,同时也能提升生成效果;而增加生成数据则主要改善生成质量,并在一定程度上增强视觉理解,但对理解的提升较为有限。
  3. 模型性能的提升: 基于VPiT,论文提出的MetaMorph模型展示了视觉理解与生成能力的协同效应。在大量的视觉理解数据的支持下,MetaMorph能够在多模态标记预测任务中表现出色,并在视觉理解和视觉生成基准测试中取得了竞争性的成绩。特别值得注意的是,MetaMorph能够从预训练的大语言模型中提取知识,并且在生成视觉标记时进行推理。例如,当被要求生成“由帝王蝶幼虫蜕变而来的动物”时,MetaMorph成功生成了蝴蝶的图像。
大模型日报(12月20日 学术篇)
https://arxiv.org/abs/2412.14164
ResearchFlow链接:https://rflow.ai/flow/6bd8d8e5-bdd4-42b2-8bfd-d62f085822cf

HuggingFace&Github

01
 

Ant Design X

🌈源自企业级AI产品最佳实践:基于RICH交互范式构建,提供卓越的AI交互体验。
🧩灵活多样的原子组件:涵盖大部分AI对话场景,让您快速构建个性化的AI交互界面。
⚡开箱即用的模型集成:轻松连接与 OpenAI 标准兼容的推理服务。
🔄会话数据流高效管理:提供强大的数据流管理工具,提升开发效率。
📦丰富的模板支持:提供多种模板,用于快速启动LUI应用程序开发。
🛡完整的 TypeScript 支持:使用 TypeScript 开发,确保强大的类型覆盖率,从而提高开发体验和可靠性。
🎨高级主题定制:支持细粒度的风格调整,满足多样化的使用场景和个性化需求。
大模型日报(12月20日 学术篇)

https://github.com/ant-design/x



推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/29028.html

Like (0)
Previous 2024-12-19 21:50
Next 2024-12-21 18:25

相关推荐