Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling
本文探讨了如何通过强化学习(RL)扩展大型语言模型(LLM)在推理任务中的能力,并提出了T1模型,该模型在推理能力和推理扩展性方面表现出色。与传统的模仿学习方法不同,T1通过RL训练来实现自我探索和反馈学习,从而提升了模型的推理能力和推理扩展行为。现有研究主要依赖于重复采样和辅助验证器来提高推理精度,但这些方法无法根本提升模型的推理能力,且推理成本较高。本文提出的T1通过鼓励更广泛的探索来扩展RL训练,同时采用适当的惩罚机制以保持训练稳定性,从而克服了这些问题。T1的创新之处在于两个方面:一是通过合成的链式思维数据进行强化学习前的调优,扩展了探索空间,避免了以往研究只关注正确步骤而忽视整体思维过程的局限性;二是在RL训练中,采用高温度生成、令牌级别的熵奖励和KL归一化策略来促进多样化的采样,从而提高模型生成的多样性并避免过度正则化。这些措施有效避免了生成重复或无意义输出的情况,保持了训练的稳定性。此外,本文提出了一种新的推理扩展度度量方法,通过明确区分推理步骤和最终答案的生成,研究推理成本如何影响模型的表现。实验结果表明,随着RL训练的扩展,T1在推理任务中展现了更强的推理扩展性,随着训练步骤的增加,推理性能持续改善。T1模型在多个挑战性数学推理基准测试中表现优异,例如在MATH500、AIME2024和Omni-MATH-500上,T1(以Qwen-32B为基础模型)显著超越了最新的Qwen QwQ-32B-Preview模型。这表明,T1不仅提升了模型的推理能力,还展示了在推理扩展性上的巨大潜力,为强化学习在LLM推理中的应用提供了新的思路。原文链接:https://arxiv.org/abs/2501.1165103元资助Coarse-to-Fine Process Reward Modeling for Enhanced Mathematical Reasoning