一、GRPO的核心原理与设计目标
Group Relative Policy Optimization(GRPO)是DeepSeek团队提出的一种强化学习算法,旨在解决传统PPO(Proximal Policy Optimization)在大语言模型(LLM)训练中的资源消耗问题。其核心创新在于 通过组内相对奖励替代价值函数(Critic Model) ,显著降低了计算成本。具体实现包括:
- 组采样机制:针对每个输入问题生成多个输出(如G=16),计算组内奖励的均值和标准差。
- 优势函数计算:采用归一化公式 A i = r