大模型日报(12月14-15日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月14-15日 学术篇)

行云季宇:谁困住了 AI 产业——大型机化的计算机形态与变革的可能性 | 奇绩潜空间活动报名

【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,潜空间定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。

第五季第二期潜空间邀请到的嘉宾是行云创始人兼 CEO ——季宇,在本次活动中季宇将在北京现场与大家面对面交流,他分享的主题是《谁困住了 AI 产业——大型机化的计算机形态与变革的可能性》。

大模型日报(12月14-15日 学术篇)

信号

01

Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data

本文提出了一种新的在线强化学习(RL)微调方法,称为Warm-start RL(WSRL),该方法不需要保留离线数据即可进行高效微调。在传统的RL微调方法中,为了确保稳定性和性能,通常需要继续在离线数据上训练,但这在大规模数据集上会变得低效和昂贵,同时也限制了性能的提升。本文的创新点在于提出了一种不依赖于离线数据的微调策略。
首先,文章分析了在当前的离线到在线微调方法中,离线数据的作用。研究发现,离线数据主要用于在在线微调开始时避免Q值函数的突变或发散,这种突变会导致预训练过程中学到的知识被遗忘。即使在一些专门设计的微调方法中,如CalQL,当离线数据缺乏时,仍然会遇到这种“遗忘”问题。基于这一观察,作者提出,通过在在线微调过程中使用少量来自预训练策略的在线数据,可以有效地解决分布不匹配问题,防止值函数发散,从而避免遗忘预训练知识。
为了实现这一思路,WSRL在微调开始时加入了一个热启动阶段,使用少量从预训练策略中采集的在线数据来初始化在线重放缓冲区,然后继续使用在线RL算法进行训练。这个过程能够有效地帮助Q函数从离线数据到在线数据的分布过渡,避免了传统方法中的灾难性遗忘,并且显著提高了学习速度和最终性能。实验结果表明,WSRL在不保留离线数据的情况下,能够比现有的RL微调方法学习得更快,且在不同的数据保留策略下都能取得更高的性能。

大模型日报(12月14-15日 学术篇)

https://arxiv.org/abs/2412.07762
02

Transformers Can Navigate Mazes With Multi-Step Prediction

本文探讨了当前Transformer模型在处理长期规划和决策任务时的局限性,尤其是在迷宫导航等任务中的表现。传统的训练方法基于下一个令牌预测,即模型根据前一步预测下一步,然而,这种方法在需要前瞻性思维的任务中存在明显缺陷,特别是当路径复杂度增加时,模型可能会选择捷径而不是规划多个步骤。这篇论文提出了一个创新的学习目标,MLM-U(Masked Language Model with Unidirectional prediction),并检验其在迷宫导航任务中的效果。
与传统的下一个令牌预测方法不同,MLM-U通过掩蔽输入序列的子集,明确地预测多个步骤的前后轨迹。这种方法的核心在于,通过学习预测未来和回溯多个步骤,模型能够更好地进行长时间的规划,避免只依赖最近的输入来做出决策。为了验证这一点,作者训练了多个Transformer模型,并使用了具有不同复杂度的迷宫环境进行测试。
实验结果显示,相比于传统的下一个令牌训练,MLM-U显著提高了迷宫导航的准确性和训练效率。例如,在20×20的迷宫中,MLM-U训练的8M参数模型能够完美解决所有迷宫,而使用标准下一个令牌预测训练的模型在相同迷宫上的表现仅为20.6%的导航准确率。此外,MLM-U在复杂迷宫(如30×30)的表现也超过了更大参数量(175M)的模型,这些模型即使加入了A*搜索轨迹的额外监督,也只能达到70.2%的导航准确率。
进一步的分析显示,MLM-U在数据效率和训练效率上也表现优异。在简单的迷宫(如5×5)上,MLM-U在训练样本使用上比标准下一个令牌训练效率高4倍,且在GPU小时数上也节省了2倍的时间。更重要的是,随着模型规模的增加,MLM-U的表现有明显提升。例如,将MLM-U从3M参数扩展到8M参数时,20×20迷宫的导航准确率从85%提高到100%。
大模型日报(12月14-15日 学术篇)
https://arxiv.org/abs/2412.05117
03

Transformers Struggle to Learn to Search

本文研究了基于Transformer的大型语言模型(LLM)在搜索任务中的表现,特别是它们在推理、规划和导航等任务中的局限性。尽管链式思维和提示方法(如Chain-of-thought)已帮助LLM分解搜索任务,但即便如此,模型仍然需要在前向传递中进行完整的搜索,以确保选择正确的下一步,否则可能会出现错误或幻觉。作者通过训练较小的Transformer模型,探讨其在一个简单且基础的搜索任务中的能力:给定一个有向无环图(DAG)、起始节点和目标节点,找出从起始节点到目标节点的路径中的下一个节点。
研究发现,当给定正确的训练分布时,Transformer模型确实能够学习进行搜索。然而,为了使模型学到一个稳健且具有广泛适用性的搜索算法,训练数据必须精心设计,以避免模型使用捷径或启发式方法,这些方法本可以使模型“走捷径”,从而未能真正学习到有效的搜索策略。通过自动生成这些训练样本,作者为模型提供了几乎无限且理想化的训练数据,这使得模型能够在几乎任何图中正确执行搜索,并且达到100%的训练准确率。
进一步的分析表明,Transformer模型在执行搜索时是同时对图中的所有节点进行处理的。对于每个节点,模型会存储在一定步数内可到达的节点集合,并通过每一层逐步扩展可达节点集合,从而使得模型能够在图中进行指数级扩展的搜索。尽管如此,当图的规模增大时,模型在学习训练分布时遇到的困难也随之增加。增大模型规模并未显著缓解这一问题,表明单纯增加Transformer的规模并不能使模型有效地学习到搜索和规划能力。
此外,作者还尝试了修改后的搜索任务,其中允许模型输出中间令牌(类似链式思维提示),如深度优先搜索和零-shot选择推理提示。结果显示,尽管在这些情况下,模型更容易解决任务,且所需层数保持常数,但它仍然在处理较大图时表现不佳。
大模型日报(12月14-15日 学术篇)
https://arxiv.org/abs/2412.04703
04

APOLLO: SGD-like Memory, AdamW-level Performance

本文提出了一种新的内存高效优化器,APOLLO,旨在解决训练大型语言模型(LLMs)时AdamW优化器在内存方面的巨大开销问题。AdamW通过同时跟踪一阶和二阶矩来稳定LLM的训练,但这种做法导致了极高的内存消耗,尤其是在大规模模型(如LLaMA-7B和GPT-3)中,单单是优化器的状态就可能占用巨大的内存资源。随着LLM模型规模的增加,训练这些模型的内存需求呈指数增长,导致高昂的硬件需求和低效的训练过程。
为了应对这一挑战,作者提出了通过结构化学习率更新和低秩辅助空间来减少内存使用,同时保持与AdamW相当甚至更优的性能。具体来说,APOLLO通过将AdamW的逐元素学习率更新规则重构为通道级或张量级格式,从而减少了冗余计算和内存消耗。通过采用纯随机投影的低秩近似方法,APOLLO能够在不进行代价高昂的SVD低秩投影的情况下,有效捕捉结构化的梯度缩放因子,从而实现了更简洁且高效的训练过程。此外,APOLLO-Mini通过应用仅包含秩1的辅助子空间进行张量级梯度缩放,进一步提升了内存效率,甚至达到了接近SGD的内存开销。
实验结果表明,APOLLO和APOLLO-Mini在多个LLaMA模型(从60M到7B参数)中均表现出色,在预训练阶段,APOLLO系列优化器相比AdamW减少了最多2.8倍的验证困惑度,同时显著减少了优化器状态的内存开销,达到极高的内存节省效果。在微调任务中,APOLLO和APOLLO-Mini的表现与完全微调相当。此外,APOLLO还提供了系统级的优势,例如在LLaMA-7B预训练时,APOLLO比AdamW提高了3倍的吞吐量,并实现了极端的内存节省。
通过结合APOLLO-Mini与权重量化,作者创造了新的内存效率记录:LLaMA 7B模型的预训练仅需12GB内存,这使得APOLLO和APOLLO-Mini成为一种高效且可扩展的解决方案,能够在性能、内存使用和吞吐量方面为LLM的预训练和微调带来显著改进。
大模型日报(12月14-15日 学术篇)
https://arxiv.org/abs/2412.05270
05

The Well: 15TB of Physics Simulations

“The Well”是一个大规模的机器学习数据集集合,包含15TB的数值模拟数据,涵盖了生物系统、流体动力学、声学散射、外星流体的磁流体动力学模拟以及超新星爆炸等多个领域。这些数据集可以单独使用,也可以作为一个整体基准套件,帮助加速机器学习和计算科学研究。其数据来源于领域专家和数值软件开发人员,旨在为训练深度学习模型提供丰富的数据支持。
该数据集的使用通过the_well库实现,用户可以通过简单的API接口访问和加载数据。使用时,首先需要安装the_well包并下载数据。数据下载支持从PyPI直接安装,也可以从源代码进行安装,适配不同的硬件加速环境(如CUDA版本)。安装完成后,用户可以选择下载单个数据集或整个数据集集合。the_well支持直接从Hugging Face进行数据流式下载,但为了提升大规模训练性能,推荐将数据下载到本地。
此外,”The Well”还包括基准测试功能,用户可以使用不同的数据集来训练和评估代理模型。该项目提供了多种基准模型的实现,并依赖于hydra配置管理系统来处理训练、模型、优化器等不同组件的配置。例如,用户可以通过运行简单的命令来训练基于FNO架构的模型,进行不同数据集的训练。
值得一提的是,”The Well”的数据集非常庞大,单个数据集的大小从6.9GB到5.1TB不等,整个数据集的总量达到15TB。因此,使用这些数据集进行训练时需要确保足够的存储空间和计算资源。为了方便用户使用,提供了便捷的下载工具和示例代码。
该项目由Polymathic AI组织主导,并与多个研究机构合作,包括Flatiron Institute、哥伦比亚大学、剑桥大学等。相关文献已在2024年神经信息处理系统大会(NeurIPS)上发表,若研究人员在研究中使用该项目,可以引用该文献。
大模型日报(12月14-15日 学术篇)https://polymathic-ai.org/the_well/

推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/28939.html

Like (0)
Previous 2024-12-15 22:33
Next 2024-12-16 13:12

相关推荐