当前位置: 首页 > news >正文

大语言模型推理能力的强化学习现状理解GRPO与近期推理模型研究的新见解

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

【本周AI新闻: Gemini 2.5 Flash, Open AI 4.1,o3&o4 mini 重磅登场】 https://www.bilibili.com/video/BV1M55WzwETw/

本月发布了多个旗舰模型,包括GPT-4.5与Llama 4,引起了业界广泛关注。但与以往相比,这些新模型的市场反应相对冷淡。其中一个重要原因在于,这两款模型仍采用传统训练方式,未显著加强推理能力,尤其未采用强化学习方法对推理进行专门训练。

与此同时,其他公司如xAI与Anthropic则在其模型中引入了更多推理功能。例如,xAI的Grok与Anthropic的Claude平台已为部分模型加入“思考模式”按钮,用以激活推理能力。

因此,市场对GPT-4.5与Llama 4反应平淡,或许反映出模型规模和数据量的扩大已逐渐接近效果瓶颈。相比之下,OpenAI新发布的o3推理模型则显示出若将计算资源有策略地投入于推理强化训练中,模型性能仍可显著提升。据OpenAI员工在4月16日的直播中透露,o3训练所耗计算资源是o1的10倍。

尽管推理并非万能解法,但目前为止,它确实稳定提升了模型在复杂任务中的准确率与问题解决能力。因此,未来LLM训练流程中很可能将推理导向的后训练机制作为标准。

本文将深入探讨用于发展与改进推理模型的强化学习方法。


目录概览:

  1. 理解推理模型

  2. RLHF基础:强化学习从何而来

  3. PPO简介:RL的主力算法

  4. RL算法演化:从PPO到GRPO

  5. 奖励建模方式:从RLHF到RLVR

  6. DeepSeek-R1模型训练过程

  7. RL推理模型训练相关论文经验总结

  8. 值得关注的研究论文汇总

(提示:如读者已熟悉RL基础、PPO与GRPO概念,可直接跳转至“RL推理模型训练相关论文经验总结”部分)


理解推理模型

所谓“推理”,指的是大型语言模型在处理复杂任务时,进行逻辑推断与中间步骤生成的能力。具体而言,当前主流方式是“思维链”或“链式思考”(CoT),即模型在给出最终答案前,会先输出多个有逻辑结构的中间步骤,展现其思考路径。

例如,当模型面对一道多步数学题时,不再仅仅凭记忆给出结果,而是通过一系列计算步骤逐步推导至正确答案。这些中间步骤视实际应用场景可能显示给用户,也可能隐藏于系统内部。

此前的研究显示,提升推理能力通常有两种路径:一是增加训练阶段的计算资源,二是在推理阶段(即推断时)增加计算资源。前者强调模型本身的训练方法,后者则偏重运行时优化。本文主要关注前者,即如何通过强化学习改善训练过程,从而提高模型的推理能力。


RLHF基础回顾

LLM在对齐人类偏好方面,最初使用的是强化学习结合人类反馈(RLHF)的方法。RLHF的流程包括三个阶段:

  1. 监督微调(SFT):使用高质量人工答案对预训练模型进行微调;

  2. 奖励模型训练:由人工对多个答案进行排序,用以训练一个回归型奖励模型;

  3. 强化学习阶段:使用PPO算法基于奖励模型进行策略优化。

PPO(Proximal Policy Optimization)是一种主流的策略优化算法,其核心是限制策略每次更新的变化范围,以避免模型不稳定。该方法结合KL散度惩罚项与熵奖励,引导模型平衡“探索”与“保守”。


从PPO到GRPO

DeepSeek团队在开发R1模型时并未继续使用PPO,而是提出了GRPO(Group Relative Policy Optimization)算法,以替代传统的价值评估模型(Critic)。GRPO通过比较来自同一策略模型的多个答案,基于其相对优劣来评估“优势值”,从而省去了价值模型这一资源密集型组件。此方法在提升数学推理能力的同时,还显著优化了计算资源效率。


从RLHF到RLVR:奖励建模演化

在标准RLHF中,奖励模型由人类偏好训练得出。而DeepSeek-R1则采用了RLVR(Reinforcement Learning with Verifiable Rewards)策略,用确定性工具(如计算器、编译器)对模型输出进行正确性验证,取代了人类标注的奖励信号,从而提高训练效率并避免“奖励黑客”(Reward Hacking)问题。


DeepSeek-R1推理模型的训练流程

DeepSeek-R1系列包括三类模型:

  1. R1-Zero:完全使用RLVR训练,不经过监督微调;

  2. R1:结合监督微调与RLHF、RLVR交替训练;

  3. R1-Distill:基于R1输出生成指令数据,对较小模型(如LLaMA 3、Qwen 2.5)进行微调,但未使用RL。

训练过程采用了两种奖励:

  • 准确性奖励:输出是否符合格式并计算正确;

  • 格式奖励:要求推理过程必须包裹在 <think></think> 标签中,确保推理结构清晰。


近期论文中关于训练推理模型的经验总结

以下为近期15篇论文中提取的关键见解:

  1. 强化学习显著提升了小模型的推理能力
    尤其是将RL用于已经通过知识蒸馏获得初步推理能力的小模型,进一步提升表现。小模型用少量数据与极低计算成本便可超越一些大模型。

  2. 生成冗长错误答案的问题
    多篇论文指出PPO与GRPO都存在偏好长文本的倾向,特别是在错误输出时。为解决此问题,研究者提出了如“Dr.GRPO”与LCPO等改进算法,引入长度惩罚与精细化奖励结构以控制输出长度。

  3. 强化学习引发的推理行为
    如DeepSeek-R1中的“AHA时刻”并非手动设计,而是模型在训练中自发学会了验证与反思行为。

  4. 推理能力的跨领域泛化
    通过逻辑谜题训练获得的模型,在数学与编程任务中也表现出色,表明推理能力可以不依赖具体领域知识泛化。

  5. 向更广泛领域扩展
    如医学、心理学、教育等非结构化任务中,也能通过生成式评分机制引入可验证奖励,从而实现强化学习训练。

  6. 推理能力并非仅由RL驱动
    有研究指出,链式思考能力可能在预训练阶段就已自然涌现。即使不进行强化学习,一些基础模型(如Qwen2.5)也展现出“反思”与“自我修正”的倾向。这说明推理能力的形成可能是多因素共同作用的结果。


总结

当前推理模型的研究与训练正快速向更高效率、更广适应性的方向发展。强化学习,尤其是结合可验证奖励(RLVR)与相对策略优化(GRPO)的方法,正逐步替代传统的PPO与奖励模型。同时,研究者也在积极探索如何控制响应长度、提升泛化能力与引入外部工具,以推动推理能力的实际落地。

值得关注的下一步,将是推理模型与检索增强生成(RAG)与工具使用能力的深度结合。OpenAI最新的o3模型已展现出这种趋势,预示推理型大模型正逐步走向实用阶段。

相关文章:

  • 网络基础与 HTTP 协议
  • LeetCode第159题_至多包含两个不同字符的最长子串
  • Ubuntu下安装和卸载MySQL
  • 基于SpringBoot的社区家庭医生在线问诊系统
  • 使用DeepSeek的AIGC的内容创作者,如何看待陈望道先生所著的《修辞学发凡》?
  • Matlab 汽车行驶速度PID控制系统仿真
  • 控制反转(IOC)和依赖注入(DI)
  • DQN在Gym的MountainCar环境的实现
  • 缓存 --- 缓存击穿, 缓存雪崩, 缓存穿透
  • 《AI大模型应知应会100篇》第28篇:大模型在文本创作中的应用技巧
  • Android Gradle多渠道打包
  • 基于 Vue3 + ECharts + GeoJson 实现区域地图钻取功能详解
  • WEMOS LOLIN32 开发板引脚布局和技术规格
  • 25.4.20学习总结
  • PyTorch基础学习系列一
  • git学习日志
  • 从跌倒到领跑:北京亦庄机器人马拉松如何改写人机协作未来?
  • 深度解析微前端架构设计:从monorepo工程化设计到最佳实践
  • 云效部署实现Java项目自动化部署图解
  • 飞帆平台 cdn 资源集锦
  • 深一度|上海半马,展示“体育+”无限可能的路跑狂欢
  • 花卉引流+商场促销,上海浦东用“花经济”带动“消费热”
  • 在没有穹顶的剧院,和春天的音乐会来一场约会
  • 观察|美军在菲律宾部署新导弹,试图继续构建“导弹链”
  • 一图看懂|特朗普政府VS美国顶尖高校:这场风暴如何刮起?
  • 奥园集团:截至3月底逾期债务约438.33亿元