当前位置: 首页 > news >正文

LLM Post-Training

1. LLM的后训练分类

  • Fine-tuning

  • Reinforcement Learning

  • Test-time Scaling

图片

方法

优点

缺点

Fine-tuning

任务适应性:能够针对特定任务或领域进行优化,提升模型在该任务上的性能。

数据驱动优化:利用标注数据直接调整模型参数,使模型更好地符合任务要求。

广泛适用性:适用于多种任务,包括文本生成、问答、分类等。

过拟合风险:可能导致模型在训练数据上表现良好,但在未见过的数据上性能下降。

计算成本高:需要对整个模型或大量参数进行更新,计算资源消耗大。
数据偏差敏感:如果训练数据有偏差,模型可能学习到错误的模式。

Reinforcement Learning

动态优化:能够根据环境反馈动态调整策略,优化长期目标。

适应性强:可以处理复杂的、动态变化的任务,如对话生成、多步推理等。

对齐用户意图:通过奖励信号优化模型输出,使其更符合人类偏好。

奖励函数设计复杂:需要精心设计奖励函数,以避免奖励误导或奖励黑客问题。
训练不稳定:由于奖励信号稀疏且主观,可能导致训练过程不稳定。
计算资源需求高:尤其是当模型规模较大时,训练成本显著增加。

Test-time Scaling

推理时优化:在推理阶段动态调整模型行为,无需重新训练模型。
资源灵活分配:可以根据任务复杂度灵活调整计算资源,提高推理效率。
性能提升:在某些任务上,通过优化推理过程可以显著提升模型性能。

推理延迟增加:在某些情况下,如使用复杂的搜索策略,可能导致推理时间延长。
适用性有限:某些方法可能仅适用于特定类型的任务或模型。
环境依赖:某些技术(如蒙特卡洛树搜索)可能对环境设置较为敏感。

2. 微调

图片

3. 强化学习

图片

4. Test Time Scaling(测试时扩展)

图片

5. 参考

https://arxiv.org/pdf/2502.21321 

https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

相关文章:

  • LeetCode[541]反转字符串Ⅱ
  • 字符串与相应函数(下)
  • 记录一次TDSQL网关夯住故障
  • 安全密码处理实践
  • Spring Boot 项目里设置默认国区时区,Jave中Date时区配置
  • AI大模型从0到1记录学习 数据结构和算法 day18
  • 实验一 字符串匹配实验
  • HDMI与DVI接口热插拔检测
  • STM32单片机入门学习——第37节: [11-2] W25Q64简介
  • GPT4O画图玩法案例,不降智,非dalle
  • 13-scala模式匹配
  • QML与C++:基于ListView调用外部模型进行增删改查(附自定义组件)
  • Golang|Channel 相关用法理解
  • 大模型SAM辅助labelme分割数据集(纯小白教程)
  • Java栈与队列深度解析:结构、实现与应用指南
  • 用密钥方式让通过JumpServer代理的服务器可以在我本地电脑直接访问
  • Java 设计模式:外观模式详解
  • 5.6 GitHub PR分析爆款方案:分层提示工程+LangChain实战,准确率飙升22%
  • 什么是RAG
  • Nodejs Express框架
  • 商务部:已有超1.2亿人次享受到以旧换新补贴优惠
  • 政治局会议:持续稳定和活跃资本市场
  • 财政部部长:中方主张通过平等对话协商解决贸易和关税争议
  • 济南市莱芜区委书记焦卫星任济南市副市长
  • 国防部:“台独”武装摆练纯属搞心理安慰,怎么演都是溃败的死局
  • 波音CEO称中方因中美“贸易战”停止接收波音飞机,外交部回应