我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即 可在飞书每日收到《大模型日报》每日最新推送
Reka AI 刘琦:多模态大模型与 Agent 的训练与实践 | 奇绩潜空间活动报名
【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。
第五季第四期潜空间邀请到的嘉宾是 Reka AI 联合创始人,香港大学计算机科学系助理教授 ——刘琦,他分享的主题是《多模态大模型与智能 Agent 的训练与实践:打造自动化驱动的智能化未来》。
学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
信号
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models
RLHF 的主要范式是在线和基于策略的 RL:从大型语言模型 (LLM) 策略同步生成,使用奖励模型进行标记,并使用 LLM 自身输出的反馈进行学习。虽然这种范式性能良好,但计算效率低下。受经典深度 RL 文献的启发,我们提出在 RLHF 中将生成和学习分开。这使得异步生成新样本的同时对旧样本进行训练成为可能,从而加快训练速度并实现更优化的计算扩展。然而,异步训练依赖于一种未被充分探索的机制,即在线但基于策略的 RLHF:基于我们模型先前迭代的样本进行学习。为了了解这种机制中的挑战,我们研究了一个基本问题:我们可以容忍多少基于策略的异步训练以加快学习速度但保持性能?在我们测试的几种 RLHF 算法中,我们发现在线 DPO 对基于策略的数据最为稳健,并且稳健性随着策略模型的规模而增加。我们进一步研究了异步 RLHF 的计算优化,但发现它们会以性能为代价,从而产生权衡。最后,我们通过在指令跟踪任务上训练 LLaMA 3.1 8B 来验证异步 RLHF 的可扩展性,该任务比同步运行快 40%,同时匹配最终性能。
原文链接:https://arxiv.org/abs/2410.18252
ResearchFlow链接:https://rflow.ai/flow/dea37b74-beb2-4df2-b5fd-e7e4164bb53c
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains
大型语言模型 (LLM) 近年来取得了显著的表现,但从根本上讲受到底层训练数据的限制。为了在训练数据之外改进模型,最近的研究探索了如何使用 LLM 生成合成数据以实现自主自我改进。然而,自我改进的连续步骤可能会达到收益递减点。在这项工作中,我们提出了一种自我改进的补充方法,其中将微调应用于多智能体语言模型社会。一组语言模型都从同一个基础模型开始,通过使用模型之间多智能体交互生成的数据更新每个模型,从而独立地进行专业化。通过在独立的数据集上训练每个模型,我们说明了这种方法如何实现跨模型的专业化和模型集的多样化。因此,与单智能体自我改进方法相比,我们的整体系统能够保留多样化的推理链,并在更多轮微调中自主改进。我们定量说明了该方法在一系列推理任务中的有效性。
原文链接:https://arxiv.org/abs/2501.05707v1
ResearchFlow链接:https://rflow.ai/flow/d963b791-51e5-49df-8b80-0cb52d4a121f
HuggingFace&Github
DeepSeek-V3
DeepSeek-V3是一个强大的Mixture-of-Experts(MoE)语言模型,总参数为671B,每个标记激活37B。
为了高效推理和成本效益高的训练,DeepSeek-V3采用了在DeepSeek-V2中经过充分验证的多头潜在注意力(MLA)和DeepSeekMoE架构。
此外,DeepSeek-V3率先采用了一种无辅助损失的负载平衡策略,并设定了更强的多标记预测训练目标。开发组预先在14.8万亿个多样性和高质量标记上预训练了DeepSeek-V3,随后进行了监督微调阶段和强化学习阶段,以充分利用其能力。
综合评估显示,DeepSeek-V3的表现优于其他开源模型,其性能可与领先的闭源模型相媲美。尽管DeepSeek-V3表现出色,但其完整的训练仅需要2.788M H800 GPU小时。
此外,训练过程非常稳定。在整个训练过程中,开发组没有遇到任何不可恢复的损失峰值,也没有进行任何回滚。
https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/32751.html