当前位置: 首页 > news >正文

AI速读 Seed-Thinking-v1.5:大模型推理的新飞跃

在大语言模型(LLM)蓬勃发展的今天,推理模型的性能提升成为了AI领域的关键议题。今天为大家解读的论文,带来了名为Seed-Thinking-v1.5的推理模型,它在多个任务上表现惊艳,还创新性地解决了不少难题,快一起来深入了解!

论文标题:Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning
来源:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf

文章核心

研究背景

随着大规模强化学习在大语言模型中的应用,推理模型发展迅猛,OpenAI的o1系列、DeepSeek的R1等先进模型不断涌现,推动该领域朝着更高效、更强大的方向迈进。

研究问题

  1. 训练数据问题:推理模型依赖思维链(CoT)数据进行训练,但传统用于监督微调(SFT)的非CoT数据过多会降低模型探索能力,现有数据处理方式难以满足高质量训练需求。
  2. RL算法不稳定:强化学习训练推理模型时稳定性欠佳,容易崩溃,不同训练轮次分数差异大,这对模型优化产生了严重阻碍。
  3. RL基础设施复杂:基于大语言模型的强化学习系统基础设施复杂,需要具备良好的可扩展性、可重复性和计算效率,以应对复杂的异构工作负载。

主要贡献

  1. 强大的推理模型:提出Seed-Thinking-v1.5模型,在数学推理、竞赛编程、科学等任务上成绩优异。例如在AIME 2024竞赛中取得86.7分,与OpenAI的o3-mini-high模型相当;在Codeforces竞赛编程任务中,pass@8指标达到55.0% ,优于DeepSeek R1;在GPQA科学任务上,准确率为77.3%,接近o3-mini-high水平 。在非推理任务上,相比DeepSeek R1,用户积极反馈率提升8%。
  2. 创新RL算法框架:首创VAPO和DAPO两个框架,分别针对演员 - 评论家(actor-critic)和策略梯度(policy-gradient)RL范式,有效解决了RL训练不稳定的问题,成为各自范式下的最优解。
  3. 构建新基准数据集:开发了BeyondAIME和Codeforces两个内部基准数据集,用于更精准地评估模型的泛化推理能力,并且这两个数据集都将公开,为后续研究提供支持。
  4. 优化RL基础设施:设计解耦的流式滚动输出架构(SRS),实现异步处理部分轨迹生成,迭代周期比同步框架快3倍;提出混合分布式训练框架,集成多种先进技术,显著提高了训练效率和可扩展性。

方法论精要

  1. 核心算法/框架:采用混合专家(Mixture-of-Experts,MoE)模型架构,借助统一的强化学习框架融合多领域数据进行训练。训练过程中,运用VAPO和DAPO框架提升训练稳定性。
  2. 关键参数设计原理:监督微调阶段,将每个训练实例截断为32,000个令牌(tokens),采用余弦退火学习率调度,峰值学习率设为(2×10{-5}) ,并逐渐衰减至(2×10{-6}) 。强化学习阶段,运用多种技术调整参数,如Value-Pretraining让价值模型与策略对齐;Decoupled-GAE通过采用不同的广义优势估计(GAE)参数,实现价值模型无偏更新,策略独立平衡偏差和方差。
  3. 创新性技术组合:通过模型合成、人工标注和拒绝采样的迭代流程,生成高质量长思维链(CoT)响应;在强化学习中,融合可验证数据、通用数据以及结合验证器与奖励模型分数的混合数据;利用Online Data Distribution Adaptation方法,将固定的提示分布转换为自适应分布,减少数据域间干扰。
  4. 实验验证方式:使用多个公开数据集和自研数据集进行实验。数学推理任务采用AIME 2024、AIME 2025和BeyondAIME数据集;竞赛编程任务使用Codeforces数据集;科学任务选用GPQA数据集等。对比基线选取当前先进的推理模型,如DeepSeek R1、OpenAI o3-mini、Grok 3 Beta、Gemini 2.5 pro等,通过对比评估模型性能。

实验洞察

  1. 性能优势:在AIME 2024竞赛中,Seed-Thinking-v1.5得分86.7,与OpenAI的o3-mini-high持平,超过DeepSeek R1(79.8);在Codeforces竞赛编程任务中,pass@8指标达到55.0% ,优于DeepSeek R1(45.0%),接近Gemini 2.5 Pro(56.3%);在GPQA任务中,准确率为77.3%,高于DeepSeek R1(71.5%),接近o3-mini-high水平。在非推理任务的人类评估中,相比DeepSeek R1,整体胜率提升8% 。
  2. 效率突破:通过SRS架构实现异步处理部分轨迹生成,迭代周期比同步框架快3倍。在训练系统中,采用组合TP/EP/CP与完全分片数据并行(FSDP)、KARP算法平衡序列长度、内存优化等多种并行策略和优化技术,有效提高了训练效率。
  3. 消融研究:对预训练模型进行消融实验发现,使用拒绝微调(RFT)初始化的预训练模型在训练中饱和更快,但最终性能低于未使用RFT训练的模型。如在AIME平均得分(avg@32)指标上,基线模型为58%,使用RFT的模型仅为54% ,证明RFT对模型性能提升没有积极作用。

本文由AI辅助完成。

相关文章:

  • Linux指令篇 (2)
  • 什么是超类实体和派生属性
  • 数据结构(6)——队列
  • 10软件测试需求分析案例-查询学习信息
  • 基于蚁群算法的柔性车间调度最优化设计
  • 实用指南:如何找到完美契合的视频素材
  • AI 驱动抗生素发现:从靶点到化合物测试
  • 88. 合并两个有序数组
  • 【FFmpeg从入门到精通】第三章-FFmpeg转封装
  • 从句详细解析
  • day 20
  • U-Boot 启动过程详解
  • 案例驱动的 IT 团队管理:创新与突破之路:第六章 组织进化:从案例沉淀到管理体系-6.1 案例库建设方法论-6.1.2案例分级与标签体系
  • 零基础上手Python数据分析 (18):Matplotlib 基础绘图 - 让数据“开口说话”
  • Cril 截取字段-生成hostname
  • 08-DevOps-向Harbor上传自定义镜像
  • 北斗短报文终端与5G融合:构建空天地海一体化通信新生态
  • XCZU27DR‑2FFVE1156I Xilinx Zynq UltraScale+ RFSoC
  • QT采用cmake编译时文件解析
  • IsaacSim Asserts 配置
  • 管理规模归零,华夏基金“ETF规模一哥”张弘弢清仓卸任所有产品
  • 中国船协发布关于美对华造船业实施限制措施的严正声明
  • 经济日报:从三个变化看外贸破局之道
  • 浙江、安徽公布一季度外贸数据,出口增速均达到两位数
  • 上传150个电视剧切条短视频到网上,博主被判赔2万元
  • 韩国国会未通过“内乱特检法”