当前位置：首页 > news >正文

大模型面经：SFT和RL如何影响模型的泛化或记忆能力？

news 来源：原创 2025/4/29 8:18:40

监督微调 (SFT) 和强化学习 (RL)都是目前大模型的基础模型后训练技术，像DeepSeek-R1、kimi等的训练方法都将两种技术应用到了极致。

如何去设计训练步骤（先SFT再RL，还是直接RL）都需要对SFT和RL的能力有较深刻的了解。

本篇就以面经的形式，探讨SFT、RL两种不同的后训练范式在基于文本规则和视觉变体的情况下对模型记忆与泛化能力的作用。

一、SFT和RL分别对基座大模型的作用和影响是什么？

1. SFT

1）作用

通过在特定任务，通常为指令格式的数据集上训练预训练模型，使其适应下游任务。

2）影响

SFT 倾向于记忆训练数据，在基于规则的文本和视觉环境中都难以泛化到分布外的数据。
SFT 对于有效的 RL 训练仍然非常重要：SFT 可以稳定模型的输出格式，使得后续的 RL 能够实现性能的提升。

2. RL

1）作用

用于使模型与人类偏好对齐，或训练基础模型来解决特定任务。

2）影响

RL在基于规则的文本和视觉环境中均能展现出泛化能力。
RL在复杂的、多模态任务中泛化能力强，且可以提升模型潜在的视觉识别能力，有助于增强视觉领域泛化能力。

总结就是RL 泛化，SFT 记忆。

二、当模型包含视觉组件时，RL/SFT 如何影响其对不同视觉变体的泛化能力？

这块其实主要看多模态大模型中，视觉变化对分布外（OOD）泛化的影响。

从上图看，强化学习（RL）在规则变化中展现出泛化能力，而监督微调（SFT）则呈现相反的趋势。

三. RL/SFT 如何影响视觉语言模型（VLM）中的视觉识别能力？

RL提高了视觉识别准确率，这也是RL提高了泛化能力的表现。

而SFT降低了视觉识别准确率和整体性能。

四. SFT 在 RL 训练中扮演什么角色？

实验流程是最好在 SFT 之后实例化 RL，特别是当基座模型都还没有学会模板指令的时候。

上图是一个示例，如果没有 SFT，基础模型会表现出较差的指令遵循能力，倾向于生成冗长、离题且非结构化的响应。

这个问题使得检索任务相关的信息和用于 RL 训练的奖励变得不可能。

当主干模型不遵循指令时，SFT（监督微调）对于 RL（强化学习）训练是必要的。

五. 验证迭代次数如何影响泛化能力

验证是多步骤训练和评估流程中的一个关键组成部分，上图表明随着验证步骤的增加，强化学习的泛化能力表现更佳。

上述研究均来自谷歌新作《SFT Memorizes, RL Generalizes: AComparative Study of Foundation Model Post-training》。

目前看起来这篇论文的研究结果跟DeepSeek以及o系列推理模型的训练报告都非常契合，特别是DeepSeek-R1的“SFT->RL->增强SFT->增强RL”这种左脚踩右脚直接起飞的操作。

nessus kali 卸载

专题--JVM体系

Java泛型（超详细介绍）

树莓派 4B：AI 物联网完整部署方案

QT项目——天气预报

Qt QStackedWidget 总结

React 源码揭秘 | CompleteWork “归“的过程

Java 23新特性深度解析：开启下一代Java开发新范式

深入解析：短轮询、长轮询、长连接与WebSocket（原理到实现）

2025-arXiv-AlphaSharpe: LLM 驱动的稳健风险调整金融指标

python查错误TypeError: bad operand type for unary -: ‘str‘

Windows PyCharm的python项目移动存储位置后需要做的变更

Qt的QToolButton的使用

Java——super

破解Docker镜像拉取难题：为Docker配置代理加速镜像拉取

【JMeter使用-2】JMeter中Java Request采样器的使用指南

【教学类-89-06】20250220新年篇05——元宵节灯笼

机器学习实战：从理论到应用的完整指南

优艾智合获批广东省复合协作机器人工程技术研究中心

【C#】无法安装程序包“DotSpatial.Symbology 4.0.656”

北京公园使用指南

中方会否公布铁线礁的领海基线？外交部：中方执法活动旨在反制菲方侵权挑衅

视觉周刊｜2025上海车展的科技范

在差异中建共鸣，《20世纪美国文学思想研究》丛书出版

李强主持召开国务院常务会议

饶权已任国家文物局局长

一、SFT和RL分别对基座大模型的作用和影响是什么？

二、当模型包含视觉组件时，RL/SFT 如何影响其对不同视觉变体的泛化能力？

三. RL/SFT 如何影响视觉语言模型（VLM）中的视觉识别能力？

四. SFT 在 RL 训练中扮演什么角色？

五. 验证迭代次数如何影响泛化能力

相关文章：