当前位置: 首页 > news >正文

【AI论文】ToolRL:奖励是工具学习所需的一切

摘要:当前的大型语言模型(LLMs)通常需要进行监督式微调(SFT)以获得工具使用能力。 然而,SFT难以推广到不熟悉或复杂的工具使用场景。 强化学习(RL)的最新进展,特别是R1类模型的最新进展,已经显示出有希望的推理和泛化能力。 然而,工具使用的奖励设计带来了独特的挑战:多种工具可能被调用不同的参数,而粗粒度的奖励信号,如答案匹配,无法提供有效学习所需的细粒度反馈。 在这项工作中,我们首次对RL范式中工具选择和应用任务的奖励设计进行了全面的研究。 我们系统地探索了广泛的奖励策略,分析了它们的类型、规模、粒度和时间动态。 基于这些见解,我们提出了一个为工具使用任务量身定制的原则性奖励设计,并将其应用于使用组相对策略优化(GRPO)训练LLM。 跨不同基准的实验评估表明,我们的方法产生了稳健、可扩展和稳定的训练,比基础模型提高了17%,比SFT模型提高了15%。 这些结果突出了周到的奖励设计在提高LLM的工具使用能力和泛化性能方面的关键作用。 所有代码均已发布,以方便未来的研究。Huggingface链接:Paper page,论文链接:2504.13958

研究背景和目的

研究背景

近年来,大型语言模型(LLMs)在复杂推理任务中展现出了惊人的能力。随着技术的不断进步,LLMs已经能够在多种领域,如数学、逻辑、科学发现、研究自动化、实体任务完成和日常决策制定等方面发挥重要作用。然而,尽管LLMs在静态文本推理方面取得了显著成就,但在处理需要与外部工具交互的任务时,它们仍然面临诸多挑战。这些工具包括搜索引擎、计算器、代码解释器等,它们能够为LLMs提供实时访问和专门的能力,从而帮助模型解决更为复杂和接地气的任务。

工具集成推理(TIR,Tool-Integrated Reasoning)作为一种新兴范式,旨在增强LLMs的能力,使其能够通过与外部工具的交互来克服自身知识的局限性,如过时知识、计算不准确和浅层推理等问题。TIR不仅要求LLMs能够选择合适的工具,还需要它们能够解释中间输出,并在执行过程中动态调整其推理轨迹。这些动态和交互式的推理技能使TIR成为LLMs作为代理的核心能力之一。

尽管TIR具有巨大的潜力,但当前训练LLMs进行TIR任务的方法主要依赖于监督式微调(SFT)。这种方法通常首先离线生成集成推理步骤,然后对这些轨迹进行SFT。然而,SFT在泛化能力、探索能力和适应性方面存在局限性。特别是在处理开放式或多步骤设置时,SFT往往无法捕捉到工具使用的战略灵活性。此外,SFT训练的模型可能会过度拟合某些模式,而无法学习到最优的工具使用策略。

为了克服SFT的局限性,并推动LLMs在TIR任务中的性能,近年来研究者们开始探索使用强化学习(RL)来训练LLMs。RL为LLMs提供了一种更加灵活和可扩展的训练范式,使其能够在与环境的交互中学习最优策略。然而,将RL应用于TIR任务并非易事,其中一个关键挑战就是奖励设计。与数学任务只有一个正确答案不同,TIR任务涉及多个层次的复杂性,包括多步骤交互、调用多个工具以及每个工具需要仔细指定的参数。因此,设计有效的奖励信号来指导LLMs在这种复杂性中学习,仍然是一个开放且未被充分探索的问题。

研究目的

本文旨在解决TIR任务中RL奖励设计的问题,并提出一种原则性的奖励设计框架,以提高LLMs在工具选择和应用方面的能力。具体研究目的如下:

  1. 提出一种适用于TIR任务的RL奖励设计:通过系统地探索不同奖励策略的类型、规模、粒度和时间动态,设计一种能够引导LLMs有效学习工具使用能力的奖励函数。

  2. 验证奖励设计的有效性:将提出的奖励设计应用于多种RL算法(如GRPO)中,以训练LLMs进行TIR任务,并通过实验评估其性能。

  3. 分析奖励设计对模型行为的影响:通过一系列消融研究,分析不同奖励策略对模型工具使用行为、泛化能力和新兴行为(如主动性和元认知能力)的影响。

  4. 推动TIR领域的发展:为未来的LLMs工具使用研究提供实证路线图,并促进LLMs作为自主代理的应用。

研究方法

任务定义

本文首先定义了TIR任务,并概述了用于指导模型训练的一般原则。TIR任务涉及LLMs通过集成外部工具来解决用户任务。一个典型的TIR轨迹包括多个工具调用步骤,每个步骤都涉及自然语言推理、工具调用和接收观察结果。模型的目标是在每个步骤中选择一组能够最大化即时奖励的工具。

RL框架

为了训练LLMs进行TIR任务,本文采用了一种RL框架,其中模型策略被定义为从当前状态到下一个推理步骤、工具集和格式化工具调用的映射。训练目标是优化模型策略,以最大化整个轨迹的累积奖励。

奖励设计

奖励设计是本文的核心贡献之一。本文提出了一种结合结构和正确性基础的奖励函数,其中格式奖励评估模型输出是否包含所有必需的特殊标记,而正确性奖励评估预测工具调用与真实工具调用的匹配程度。正确性奖励进一步分解为工具名称匹配、参数名称匹配和参数内容匹配三个部分,以提供更细粒度的反馈。

训练过程

在训练过程中,本文使用了一种称为GRPO的RL算法,该算法通过组内样本的优势归一化来稳定训练。模型首先通过SFT获得基本的推理能力,然后使用RL进行进一步的优化。训练数据集包含多种工具使用场景,以支持鲁棒的工具学习。

研究结果

实验设置

本文在多个基准测试上评估了所提出的方法,包括BFCL、API-Bank和Bamboogle等。这些基准测试涵盖了单步推理、多步工具使用、实时执行、不相关工具拒绝等多种挑战。

主要结果

实验结果表明,使用GRPO和所设计的奖励函数训练的模型在多个基准测试上均取得了显著优于基础模型和SFT模型的性能。具体来说,所提出的方法在BFCL基准测试上实现了约10%的绝对增益,在API-Bank基准测试上实现了约15%的增益。此外,所训练的模型还展现出了强大的泛化能力,能够在未见过的场景和任务目标上表现出色。

消融研究

本文还进行了一系列消融研究,以分析不同奖励策略对模型性能的影响。结果表明,动态奖励规模、细粒度奖励分解和适当的奖励动态有助于模型的稳定和有效学习。相比之下,长度奖励和等比例奖励规模在某些情况下可能导致性能下降。

研究局限

尽管本文在TIR任务的RL奖励设计方面取得了显著进展,但仍存在一些局限性:

  1. 奖励设计的局限性:尽管本文提出的奖励设计在多个基准测试上取得了优异性能,但它可能仍然无法完全捕捉到TIR任务中所有可能的复杂性。未来的研究可以进一步探索更细粒度和更灵活的奖励设计。

  2. 训练数据的局限性:当前的训练数据主要集中在某些特定的工具使用场景上,可能无法全面反映真实世界中的工具使用需求。未来的研究可以收集更广泛和更多样化的训练数据,以提高模型的泛化能力。

  3. 模型规模的局限性:本文的实验主要在小规模模型上进行,而大规模模型可能表现出不同的学习行为和性能。未来的研究可以探索在大规模模型上应用所提出的奖励设计,并评估其性能。

未来研究方向

基于本文的研究成果和局限性,未来的研究可以从以下几个方面展开:

  1. 更细粒度的奖励设计:探索更细粒度和更灵活的奖励设计,以更好地捕捉TIR任务中的复杂性和多样性。例如,可以引入基于规则的奖励函数,以在特定情况下为模型提供更具体的指导。

  2. 多样化的训练数据:收集更广泛和更多样化的训练数据,以涵盖更多种类的工具使用场景和任务需求。这将有助于提高模型的泛化能力和实用性。

  3. 大规模模型的应用:在大规模模型上应用所提出的奖励设计,并评估其性能。通过在大规模模型上的实验,可以更深入地理解奖励设计对模型行为的影响,并为未来的研究提供指导。

  4. 与其他技术的结合:探索将所提出的奖励设计与其他技术(如自监督学习、知识蒸馏等)相结合的方法,以进一步提高LLMs的工具使用能力和泛化性能。这将有助于推动LLMs在更多领域的应用和发展。

相关文章:

  • [创业之路-382]:企业法务 - 企业如何通过技术专利与技术秘密保护自己
  • 深度学习:迁移学习
  • rocky9.4部署k8s群集v1.28.2版本(containerd)(纯命令)
  • ssh启动不了报错
  • leetcode刷题日记——有效的括号
  • python自动化学习六:断言
  • 基于Java+MySQL 实现(Web)日程管理系统
  • 开发了一个b站视频音频提取器
  • Spring Security结构总览
  • 【MySQL】基本查询
  • Android 16强制横竖屏设置
  • 【oql】spark thriftserver内存溢出,使用oql查询导致oom的sql
  • c语言 write函数
  • 3、ArkTS语言介绍
  • 动态规划dp专题-(下)
  • Unreal Niagara制作SubUV贴图翻页动画
  • CVE-2025-32102 | Ubuntu 下复现 CrushFTP telnetSocket接口SSRF
  • 360安全卫士安卓版手机加速与骚扰拦截功能测评
  • netty中的Channel与Java NIO中的Channel核心对比
  • 数据库MySQL学习——day3(主键与外键约束)
  • 上海:全面建设重复使用火箭创新高地、低成本商业卫星规模制造高地
  • 陕西全省公开征集涉企行政执法问题线索,切实减轻企业负担
  • 潘功胜在美谈关税:吁全球经济勿滑向“高摩擦、低信任”轨道
  • 网培机构围猎中老年人:低价引流卖高价课、“名师”无资质,舆论呼吁加强监管
  • 美股再遭重挫,标普500指数11个板块全线溃败
  • 收缩非洲业务专注挖矿,裁减大批外交官,“美国务院改革草案”引争议