当前位置：首页 > news >正文

GRPO vs SFT：强化学习提升大模型多模态推理泛化能力的原因研究

news 来源：原创 2025/4/29 6:33:13

GRPO vs SFT：强化学习提升大模型多模态推理泛化能力的原因研究

作者：吴宇斌

原文地址：https://zhuanlan.zhihu.com/p/1892362859628963761

训练目标与优化方式差异对比

监督微调（SFT）的目标： SFT使用带标注答案的数据，通过最小化交叉熵来让模型准确拟合训练集输出。模型被显式监督去模仿范例答案的每个细节。这样训练的模型倾向于记忆训练数据中的模式和答案。SFT优化的是模型对给定输入生成特定期望输出的概率，因此更关注复现训练集中人类提供的解答。
强化学习（RL，特别是GRPO）的目标： GRPO（Group Relative Policy Optimization）是一种针对大模型的策略梯度算法，由Shao等人提出并用于DeepSeek-R1模型。与传统PPO类似，GRPO通过策略迭代优化模型，但不使用同规模的价值网络，而是通过对比一组生成的结果的奖励来估计优势（即采用分组内的平均奖励作为baseline）。具体而言，RL训练中模型（策略）在每个提示上采样多个不同输出，并根据预设的奖励函数评估每个输出好坏，然后调整模型参数以最大化预期奖励。模型的更新方向由奖励信号驱动，而非对比单一正确答案。相比SFT简单模仿，RL允许模型探索不同策略，只要能获得更高奖励即可。尤其是GRPO这类方法直接利用可编程奖励函数进行优化，无需人工偏好数据或专门训练奖励模型。这意味着模型可以围绕任务目标（如答案正确性）直接优化行为，从而学习解决任务的泛化策略。此外，GRPO常使用一个冻结的参考模型来提供稳定性，限制策略偏离原始行为太远，同时鼓励逐步改进。
对模型表示学习的影响：由于目标不同，SFT与RL对模型内部表示的塑造有所区别。SFT强制模型捕捉训练样本的细节模式来尽量还原答案，这可能包括与任务无关的表述习惯或数据偏差，容易导致模型表示中混入许多特定语料特征，从而欠泛化。相反，RL优化关注的是最终任务奖励，模型不需要再现人类答案的表面形式，而只需实现高分行为。这往往驱使模型抽取输入中对完成任务最有用的关键信息，忽略无关细节。例如，有研究发现RL训练提升了模型底层的视觉识别能力，让模型更准确地提取图像关键信息用于推理，从而在视觉领域获得更好的泛化。总的来说，SFT更倾向于让模型记忆训练分布（Memorization），而RL促使模型学习可迁移的决策策略——前者在训练分布外表现不佳，后者则更具适应性。

强化学习训练动态与目标函数可塑性

训练动态（Dynamic）：在RL框架下，训练是一个循环反馈过程：模型生成输出→根据奖励评估输出→利用反馈更新策略。这样的动态使模型能在训练中“试错”：模型自身的输出参与了训练数据的构建。比如在GRPO中，每个prompt模型会生成N个不同回答（通过随机采样引入多样性），然后根据奖励高低区分优劣并反馈给模型。这种过程有几点好处：
- (1) 探索多样性：模型在训练时看到多种可能解答，比起SFT始终给定唯一正确答案，RL鼓励模型探索不同解法路径。由此，模型可以发现比训练集示例更优或不同的解题思路，形成更广泛泛化的策略。
- (2) 纠错学习：由于RL允许模型输出错误答案并据此得到低奖励反馈，模型有机会识别哪些行为是不利的，并在训练中自我纠正。反之SFT始终喂给模型正确答案，模型缺乏从错误中学习的机制，因而对偏离示例的情况缺乏鲁棒性。
- (3) 分布自适应： RL训练分布由模型策略逐步生成，模型不断适应自己产生的输出分布，这减轻了纯教师强制学习中训练/测试分布不匹配（exposure bias）的问题。在复杂多变输入情境下，RL的这种适应过程使模型在训练阶段已部分见识到偏离既有模式的情形，从而在OOD输入下表现更从容。
目标函数可塑性（Flexibility）： RL的方法可以灵活地设计奖励函数来引导模型行为，这赋予训练目标很高的可塑性，可针对复杂任务需求进行定制。相较之下，SFT的目标固定为模仿给定答案，对多样目标难以兼顾。RL的奖励函数可以组合多项目标：例如DeepSeek-R1在RL训练中设置了正确性奖励（解答准确与否）和格式奖励（按照要求输出思考过程和答案的格式）等多个部分。通过加权不同奖励，模型可以在训练中同时学会保证答案正确和遵循指定格式，而无需额外的人工标注数据。这样的机制使模型能针对任务要求进行微调：如果希望模型具备某种行为，只需将其融入奖励函数（如鼓励更详细的推理步骤、惩罚无意义的输出等）。这种目标灵活性有助于模型适应复杂多变的输入情境。现实应用中，不同场景下任务侧重可能不同，RL能够动态调整优化目标来满足这些变化。例如，若某多模态任务突然要求模型更关注视觉细节，开发者可增加视觉相关的奖励权重，模型随即会倾向于强化对图像信息的利用。总而言之，RL通过可定制的奖励信号，提供了比单纯模仿学习更丰富的调控手段，使模型更擅长应对任务变化和输入分布漂移。
数据效率与覆盖度： RL训练还有一些天然优势可提升泛化：
- (1) 无需高质量标注作为唯一学习信号：一些研究指出，RL策略优化不依赖每条数据都有高质量人工答案，这对多模态任务尤为关键。在复杂场景下，高质量详解往往稀缺，而RL可以利用程序判分、模拟反馈等自动奖励源直接优化。这使我们能训练模型解决更多样的问题，即使缺少逐条人工示例，从而扩大模型经验覆盖面。
- (2) 复用提示、采样效率高： RL可以对同一输入进行多次采样评估，不断调整策略。同一组问题在训练中被多次利用，模型逐渐挖掘更深入的解答策略。这种数据复用提升了有效样本效率，相当于对输入做了多角度增强，使模型对该输入相关的变化更不敏感。
- (3) 内在正则作用：像PPO/GRPO这类RL算法常对策略更新幅度施加限制（例如KL惩罚或参考模型约束），防止模型过度偏航。这个过程对模型形成一种正则化效应，使其在追求高奖励的同时保持基础能力不退化。相比之下，SFT一味拟合数据，若训练分布有限可能导致模型过拟合特定表达而缺乏这种自我约束机制。从经验看，在视觉数学推理等任务上，SFT模型有时甚至不及未微调的基础模型，显示其过度拟合训练集的症状。RL由于有策略约束和随机探索，往往避免了这个陷阱。

理论视角下RL泛化能力优于SFT的解释

从理论层面，可以用若干框架来理解为何RL（如GRPO）的泛化能力往往优于纯监督微调：

信息瓶颈理论：信息瓶颈原理认为，模型应力求在内部表示中压缩无关信息、保留与任务目标相关的关键信息，以达到更好的泛化。SFT训练因为要严格拟合人类答案，模型可能被迫保留大量与最终任务无关但用于还原答案格式/细节的信息，等于在表示中引入“噪音”（对任务无益的信息），这会降低泛化性能。反之，RL训练以任务奖励为导向，相当于给定了清晰的目标Y（如解答正确与否），模型只需保留对预测Y有用的那部分信息，其他冗余细节则可被忽略。例如，在数学题场景下，正确答案的奖励使模型注重计算和逻辑，而不会像SFT那样去记忆特定解题步骤的表述方式或训练集中偏爱的符号说明等。当模型表示中杂质更少、信息更纯粹地对准任务目标时，其在分布外新问题上也更能抓住要点，表现出更强的泛化。可以说，RL过程在一定程度上实现了对模型表示的信息蒸馏/压缩，这与信息瓶颈观点一致，被认为有助于防止过拟合。
策略泛化与探索理论：从决策学习的角度，RL直接学习的是一个策略（state到action的映射）而非一个确定的输入输出对。理论上，一个通过最大化预期回报学得的最优策略往往具有对环境变化的鲁棒性，因为它捕捉的是任务的普遍有效行为。相比之下，监督学习学得的是条件分布下的映射，更容易受训练分布的偏差影响。RL鼓励的随机探索也提供了类似于数据增强的效果：策略在训练时尝试多种动作并仅保留高收益的方向，这类似于从大量潜在解空间中提炼出泛用性强的决策规则。研究已经表明，通过在训练中逐渐滤除对完成任务不必要的变量（即不断探索、对比、淘汰），RL代理能适应远超训练分布范围之外的环境。对于大语言模型，策略泛化体现在模型学会了一套解题逻辑而非特定答案，当题目变化时这套逻辑仍适用。例如，一个RL优化的多模态模型可能学到“先看图找关键线索，再结合常识回答”的通用流程，这是一种策略层面的知识，能迁移到新问题；而SFT模型或许只是记住了训练集中问句和答案的对应模式，换一种问法就不知所措。
目标对齐与正则化： RL直接以我们关心的最终指标为优化目标（如答案是否正确、用户是否满意等），在理论上避免了目标错位的问题。SFT的训练目标（模仿人工答案分布）不完全等同于最终评价标准（解题正确率或用户偏好），这种不一致可能导致泛化上的劣势。而RL的目标函数可以被看作是在期望回报和策略复杂度之间求平衡（例如PPO的目标含有奖励项减去一个与旧策略KL距离相关的项）。这种形式其实隐含了一种结构风险最小化思想：在追求高回报（低任务损失）的同时，对策略变动施加惩罚（相当于限制模型过度调整，避免拟合无关细节）。这类似于在监督学习中加入正则项控制模型容量，从而提升泛化。事实上，有研究将RL视作在策略空间上的正则化优化，发现适当的约束有助于缩小训练和测试性能差距。换言之，RL优化过程自带的那些机制（KL约束、多样性采样、参考模型等）就在平衡探索与稳定，防止模型记忆训练集噪声，这为泛化提供了更坚实的保障。

综上，GRPO等强化学习方法之所以在多模态理解与复杂推理的OOD场景中比SFT具备更强泛化能力，源于训练范式的根本差异：前者通过奖励驱动模型自主探索并抽象出通用解题策略，配合灵活的目标设计和内在正则，促使模型学到更加本质和稳健的表示；后者则局限于模仿既有数据，容易捆绑住模型在特定分布下的表现。当面对超出训练分布的新情境时，RL孕育的那些“广谱”技能使模型能够举一反三、触类旁通地应对挑战。近期大量实验结果和理论分析共同印证了这一点：适当结合少量SFT热身与RL精调的策略，正成为训练新一代通用大模型以获得更强泛化能力的关键手段。

参考文献

【7】 Yan Ma et al. (2025), “Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme.” （特别是5.5节对RL vs SFT泛化的分析）arxiv.org.
【13】 Tianzhe Chu et al. (2025), “SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training.” （比较SFT与RL在文本/视觉环境下的泛化差异）ar5iv.org.
【10】 DeepSeek-AI (2025), “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” （介绍了GRPO算法及奖励设计）ar5iv.org.
【38】 Predibase 文档, “Reinforcement Fine-tuning (GRPO).” （对GRPO训练流程的概述）docs.predibase.com.
【32】 Tencent ARC (2025), “Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1.” （在视频多模态任务上比较RL和SFT性能）github.com.
【42】 Xingyu Lu et al. (2020), “Dynamics Generalization via Information Bottleneck in Deep RL.” （从信息论角度讨论RL泛化）arxiv.org.