当前位置：首页 > news >正文

AI速读 Seed-Thinking-v1.5：大模型推理的新飞跃

news 来源：原创 2025/4/20 11:28:00

在大语言模型（LLM）蓬勃发展的今天，推理模型的性能提升成为了AI领域的关键议题。今天为大家解读的论文，带来了名为Seed-Thinking-v1.5的推理模型，它在多个任务上表现惊艳，还创新性地解决了不少难题，快一起来深入了解！

论文标题：Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning
来源：https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf

文章核心

研究背景

随着大规模强化学习在大语言模型中的应用，推理模型发展迅猛，OpenAI的o1系列、DeepSeek的R1等先进模型不断涌现，推动该领域朝着更高效、更强大的方向迈进。

研究问题

训练数据问题：推理模型依赖思维链（CoT）数据进行训练，但传统用于监督微调（SFT）的非CoT数据过多会降低模型探索能力，现有数据处理方式难以满足高质量训练需求。
RL算法不稳定：强化学习训练推理模型时稳定性欠佳，容易崩溃，不同训练轮次分数差异大，这对模型优化产生了严重阻碍。
RL基础设施复杂：基于大语言模型的强化学习系统基础设施复杂，需要具备良好的可扩展性、可重复性和计算效率，以应对复杂的异构工作负载。

主要贡献

强大的推理模型：提出Seed-Thinking-v1.5模型，在数学推理、竞赛编程、科学等任务上成绩优异。例如在AIME 2024竞赛中取得86.7分，与OpenAI的o3-mini-high模型相当；在Codeforces竞赛编程任务中，pass@8指标达到55.0% ，优于DeepSeek R1；在GPQA科学任务上，准确率为77.3%，接近o3-mini-high水平。在非推理任务上，相比DeepSeek R1，用户积极反馈率提升8%。
创新RL算法框架：首创VAPO和DAPO两个框架，分别针对演员 - 评论家（actor-critic）和策略梯度（policy-gradient）RL范式，有效解决了RL训练不稳定的问题，成为各自范式下的最优解。
构建新基准数据集：开发了BeyondAIME和Codeforces两个内部基准数据集，用于更精准地评估模型的泛化推理能力，并且这两个数据集都将公开，为后续研究提供支持。
优化RL基础设施：设计解耦的流式滚动输出架构（SRS），实现异步处理部分轨迹生成，迭代周期比同步框架快3倍；提出混合分布式训练框架，集成多种先进技术，显著提高了训练效率和可扩展性。

方法论精要

核心算法/框架：采用混合专家（Mixture-of-Experts，MoE）模型架构，借助统一的强化学习框架融合多领域数据进行训练。训练过程中，运用VAPO和DAPO框架提升训练稳定性。
关键参数设计原理：监督微调阶段，将每个训练实例截断为32,000个令牌（tokens），采用余弦退火学习率调度，峰值学习率设为(2×10^{-5}⁾^{，并逐渐衰减至}⁽^2×10{-6}) 。强化学习阶段，运用多种技术调整参数，如Value-Pretraining让价值模型与策略对齐；Decoupled-GAE通过采用不同的广义优势估计（GAE）参数，实现价值模型无偏更新，策略独立平衡偏差和方差。
创新性技术组合：通过模型合成、人工标注和拒绝采样的迭代流程，生成高质量长思维链（CoT）响应；在强化学习中，融合可验证数据、通用数据以及结合验证器与奖励模型分数的混合数据；利用Online Data Distribution Adaptation方法，将固定的提示分布转换为自适应分布，减少数据域间干扰。
实验验证方式：使用多个公开数据集和自研数据集进行实验。数学推理任务采用AIME 2024、AIME 2025和BeyondAIME数据集；竞赛编程任务使用Codeforces数据集；科学任务选用GPQA数据集等。对比基线选取当前先进的推理模型，如DeepSeek R1、OpenAI o3-mini、Grok 3 Beta、Gemini 2.5 pro等，通过对比评估模型性能。

实验洞察

性能优势：在AIME 2024竞赛中，Seed-Thinking-v1.5得分86.7，与OpenAI的o3-mini-high持平，超过DeepSeek R1（79.8）；在Codeforces竞赛编程任务中，pass@8指标达到55.0% ，优于DeepSeek R1（45.0%），接近Gemini 2.5 Pro（56.3%）；在GPQA任务中，准确率为77.3%，高于DeepSeek R1（71.5%），接近o3-mini-high水平。在非推理任务的人类评估中，相比DeepSeek R1，整体胜率提升8% 。
效率突破：通过SRS架构实现异步处理部分轨迹生成，迭代周期比同步框架快3倍。在训练系统中，采用组合TP/EP/CP与完全分片数据并行（FSDP）、KARP算法平衡序列长度、内存优化等多种并行策略和优化技术，有效提高了训练效率。
消融研究：对预训练模型进行消融实验发现，使用拒绝微调（RFT）初始化的预训练模型在训练中饱和更快，但最终性能低于未使用RFT训练的模型。如在AIME平均得分（avg@32）指标上，基线模型为58%，使用RFT的模型仅为54% ，证明RFT对模型性能提升没有积极作用。

本文由AI辅助完成。