当前位置：首页 > news >正文

LLM Post-Training

news 来源：原创 2025/4/26 3:50:22

1. LLM的后训练分类

Fine-tuning

Reinforcement Learning

Test-time Scaling

方法	优点	缺点
Fine-tuning	任务适应性：能够针对特定任务或领域进行优化，提升模型在该任务上的性能。数据驱动优化：利用标注数据直接调整模型参数，使模型更好地符合任务要求。广泛适用性：适用于多种任务，包括文本生成、问答、分类等。	过拟合风险：可能导致模型在训练数据上表现良好，但在未见过的数据上性能下降。计算成本高：需要对整个模型或大量参数进行更新，计算资源消耗大。数据偏差敏感：如果训练数据有偏差，模型可能学习到错误的模式。
Reinforcement Learning	动态优化：能够根据环境反馈动态调整策略，优化长期目标。适应性强：可以处理复杂的、动态变化的任务，如对话生成、多步推理等。对齐用户意图：通过奖励信号优化模型输出，使其更符合人类偏好。	奖励函数设计复杂：需要精心设计奖励函数，以避免奖励误导或奖励黑客问题。训练不稳定：由于奖励信号稀疏且主观，可能导致训练过程不稳定。计算资源需求高：尤其是当模型规模较大时，训练成本显著增加。
Test-time Scaling	推理时优化：在推理阶段动态调整模型行为，无需重新训练模型。资源灵活分配：可以根据任务复杂度灵活调整计算资源，提高推理效率。性能提升：在某些任务上，通过优化推理过程可以显著提升模型性能。	推理延迟增加：在某些情况下，如使用复杂的搜索策略，可能导致推理时间延长。适用性有限：某些方法可能仅适用于特定类型的任务或模型。环境依赖：某些技术（如蒙特卡洛树搜索）可能对环境设置较为敏感。

2. 微调

3. 强化学习

4. Test Time Scaling(测试时扩展)

5. 参考

https://arxiv.org/pdf/2502.21321

https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

相关文章：

LeetCode[541]反转字符串Ⅱ

字符串与相应函数（下）

记录一次TDSQL网关夯住故障

安全密码处理实践

Spring Boot 项目里设置默认国区时区，Jave中Date时区配置

AI大模型从0到1记录学习数据结构和算法 day18

实验一字符串匹配实验

HDMI与DVI接口热插拔检测

STM32单片机入门学习——第37节: [11-2] W25Q64简介

GPT4O画图玩法案例，不降智，非dalle

13-scala模式匹配

QML与C++：基于ListView调用外部模型进行增删改查（附自定义组件）

Golang｜Channel 相关用法理解

大模型SAM辅助labelme分割数据集（纯小白教程）

Java栈与队列深度解析：结构、实现与应用指南

用密钥方式让通过JumpServer代理的服务器可以在我本地电脑直接访问

Java 设计模式：外观模式详解

5.6 GitHub PR分析爆款方案：分层提示工程+LangChain实战，准确率飙升22%

什么是RAG

Nodejs Express框架

商务部：已有超1.2亿人次享受到以旧换新补贴优惠

政治局会议：持续稳定和活跃资本市场

财政部部长：中方主张通过平等对话协商解决贸易和关税争议

济南市莱芜区委书记焦卫星任济南市副市长

国防部：“台独”武装摆练纯属搞心理安慰，怎么演都是溃败的死局

波音CEO称中方因中美“贸易战”停止接收波音飞机，外交部回应