论文阅读 | 大模型工具调用控制的策略优化
文章目录
- I. 背景
- II. 方法细节
- 2.1 问题定义
- 2.2 工具集成RL
- 2.3 PPO
- 2.4 GRPO
- 2.5 OTC-PO
- 2.5.1 OTC-PPO
- 2.5.2 OTC-GRPO
- 2.5.3 工具集成奖励设计
- III. 实验

题目: OTC: Optimal Tool Calls via Reinforcement Learning
论文地址: OTC: Optimal Tool Calls via Reinforcement Learning
今天看到一篇有关通过RL优化大模型工具调用效率的paper,4.21提交到arxiv上,标题为《OTC: Optimal Tool Calls via Reinforcement Learning》,思路不算复杂,正好最近接触了相关东西,遂简单解读一番。
I. 背景
大型语言模型(LLMs)虽然具备强大的语言理解和推理能力,但在处理需要实时外部信息(如最新知识、精确计算)或特定领域能力(如代码执行、数据查询)的任务时仍存在局限。例如:
- 知识时效性:模型参数无法覆盖动态更新的信息(如新闻、学术进展)。
- 计算精度:复杂数学运算或编程任务可能超出纯语言推理的准确性。
传统方法(如纯语言推理或静态知识库)难以解决这些问题,因此研究者们提出工具集成推理(Tool-integrated reasoning, TIR),通过让LLMs动态调用外部工具(如搜索引擎、计算器、API接口)来扩展能力边界。
主要挑战:
- 工具集成推理的挑战:现有的TIR方法通过结合外部工具(如搜索引擎、代码解释器)扩展了大型语言模型(LLMs)的能力,但存在效率问题。基于强化学习(RL)的方法主要关注答案正确性,忽视了工具调用的成本,导致两种低效行为:
- 工具过度使用:不必要的工具调用增加计算和财务开销。
- 工具使用不足:未能调用关键工具导致答案错误。
- 认知卸载现象:随着模型规模增大,LLMs倾向于过度依赖外部工具,抑制了自身推理能力的发展。
主要贡献:
- 第一次提出使用RL来解决工具调用效率的问题,研究了认知卸载现象,定义了工具生产力(tool productivity)。
- 提出了一种简单可扩展的最优工具调用控制的策略优化框架,即OTC-PO。该框架通过RL优化工具调用效率,鼓励模型以最少工具调用生成正确答案。该算法与各种RL算法都兼容,只需修改几行代码。
- 提出两种RL算法变体:OTC-PPO(基于PPO)和OTC-GRPO(基于GRPO)。实验结果表明,使用该框架后工具调用成本有着显著降低,同时保留了大部分准确性。
II. 方法细节
2.1 问题定义
给定问题 q q q和提供工具集访问权限的环境 E \mathcal{E} E(工具集 T = { t 0 , t 1 , … t n } \mathcal{T}=\left\{t_{0}, t_{1},\ldots t_{n}\right\} T={t0,t1,…tn}),语言模型 M \mathcal{M} M可以通过以下方式与环境交互:选择性地调用 T \mathcal{T} T中的特定工具,从 E \mathcal{E} E获取对应的工具执行结果,并迭代重复此过程直至推导出最终答案。在不失一般性的情况下,第 k k k步的工具集成推理轨迹 τ k \tau_{k} τk定义如下:
τ k = ( r 0 , t c 0 , o 0 ) , ( r 1 , t c 1 , o 1 ) , … ( r k , t c k , o k ) \tau_{k}=\left(r_{0}, t c_{0}, o_{0}\right),\left(r_{1}, t c_{1}, o_{1}\right),\ldots\left(r_{k}, t c_{k}, o_{k}\right) τk=(r0,tc0,o0),(r1,tc1,o1),…(rk,tck,ok)
其中 r i , t c i , o i r_{i}, t c_{i}, o_{i} ri,tci,oi分别表示推理过程、工具调用和返回的观察结果。
特别地,本文考虑了不需要工具调用的推理步骤:若第 p p p步无需调用工具,则 t c p t c_{p} tcp和 o p o_{p} op为空字符串,此时推理内容 r p r_{p} rp可与后续推理步骤 r p + 1 r_{p+1} rp+1合并形成新的 r p + 1 ∗ r_{p+1}^{*} rp+1∗,或者(若 p p p为最后一步)直接用于推导最终答案。任务的目标是生成正确答案 a ^ \hat{a} a^的同时最小化完整轨迹 τ \tau τ中的工具调用成本:
arg min τ Cost ( τ ) subject to M ( q , τ ) = a ^ , \underset{\tau}{\arg\min}\operatorname{Cost}(\tau)\quad\text{ subject to}\quad\mathcal{M}(q,\tau)=\hat{a}, τargminCost(τ) subject toM(q,τ)=a^,
此处成本通过轨迹 τ \tau τ中的工具调用次数衡量,这种设计兼顾了简洁性和普适性。因此,模型被激励不仅要生成正确答案,还要最小化工具调用次数。
2.2 工具集成RL
受近期将RL成功应用于提升语言模型推理能力的启发,多项研究尝试将RL扩展至工具集成推理领域。其目标函数可形式化定义为:
max π θ E q ∼ D , y ∼ π θ ( ⋅ ∣ q ; E ) [ r ϕ ( q , y ) ] − β D k l [ π θ ( y ∣ q ; E ) ∥ π ref ( y ∣ q ; E ) ] \max_{\pi_{\theta}} \mathbb{E}_{q\sim\mathcal{D}, y\sim\pi_{\theta}(\cdot|q;\mathcal{E})}\left[ r_{\phi}(q, y) \right] - \beta D_{kl}\left[ \pi_{\theta}(y|q;\mathcal{E}) \| \pi_{\text{ref}}(y|q;\mathcal{E}) \right] πθmaxEq∼D,y∼πθ(⋅∣q;E)[rϕ(q,y)]−βDkl[πθ(y∣q;E)∥πref(y∣q;E)]
其中:
- π θ \pi_{\theta} πθ 和 π ref \pi_{\text{ref}} πref 分别表示待优化的策略模型和参考模型
- r ϕ r_{\phi} rϕ 为奖励函数
- D k l D_{kl} Dkl 表示KL散度度量
- q q q是从数据集 D \mathcal{D} D中采样的提问
- y y y是生成的输出,包含工具集成推理轨迹 τ \tau τ和最终答案 a a a
为了优化该目标,本文主要采用两种成熟的策略梯度RL方法:近端策略优化(PPO)和组相对策略优化(GRPO)。
2.3 PPO
近端策略优化(PPO)是广泛应用于各类任务的策略梯度方法。PPO使用从旧策略采样的轨迹进行策略更新,并最大化以下目标函数:
J P P O ( θ ) = E q ∼ D , y ∼ π old [ 1 ∑ t = 1 ∣ y ∣ I ( y t ) ∑ t = 1 ∣ y ∣ I ( y t ) ⋅ min ( ρ t A t , clip ( ρ t , 1 − ϵ , 1 + ϵ ) A t ) ] \mathcal{J}_{PPO}(\theta) = \mathbb{E}_{q\sim\mathcal{D}, y\sim\pi_{\text{old}}} \left[ \frac{1}{\sum_{t=1}^{|y|} I(y_t)} \sum_{t=1}^{|y|} I(y_t) \cdot \min\left( \rho_t A_t, \text{clip}(\rho_t, 1-\epsilon, 1+\epsilon) A_t \right) \right] JPPO(θ)=Eq∼D,y∼πold ∑t=1∣y∣I(yt)1t=1∑∣y∣I(yt)⋅min(ρtAt,clip(ρt,1−ϵ,1+ϵ)At)
其中:
- π θ \pi_{\theta} πθ 和 π old \pi_{\text{old}} πold 分别为当前策略和旧策略
- ρ t = π θ ( y t ∣ q , y < t ; E ) π old ( y t ∣ q , y < t ; E ) \rho_t = \frac{\pi_\theta(y_t|q,y_{<t};\mathcal{E})}{\pi_{\text{old}}(y_t|q,y_{<t};\mathcal{E})} ρt=πold(yt∣q,y<t;E)πθ(yt∣q,y<t;E) 为重要性采样比
- I ( y t ) I(y_t) I(yt) 是指示函数,标记 y t y_t yt是否由模型生成(即 r i r_i ri和 t c i tc_i tci)或来自环境 E \mathcal{E} E(即 o i o_i oi)
- 优势估计 A t A_t At通过广义优势估计(GAE)计算
- ϵ \epsilon ϵ是PPO的剪切阈值,用于约束策略更新幅度
2.4 GRPO
为了提高语言模型策略优化的稳定性并避免对额外价值函数近似的依赖,组相对策略优化(GRPO)被引入。该方法通过多个采样输出的相对排序作为优势估计基线,而非拟合价值函数。对于每个输入问题 q q q,GRPO从旧策略,也即参考策略 π ref \pi_{\text{ref}} πref采样一组 G G G个响应 { y 1 , y 2 , . . . , y G } \{y_1,y_2,...,y_G\} {y1,y2,...,yG},然后通过最大化以下目标函数更新策略 π θ \pi_{\theta} πθ:
J G R P O ( θ ) = E q ∼ D , { y i } i = 1 G ∼ π old ( ⋅ ∣ q ; E ) [ 1 G ∑ i = 1 G 1 ∑ t = 1 ∣ y i ∣ I ( y i , t ) ∑ t = 1 ∣ y i ∣ I ( y i , t ) ⋅ min ( ρ t A ^ i , t , clip ( ρ t , 1 − ϵ , 1 + ϵ ) A ^ i , t ) ] − β D K L [ π θ ∥ π ref ] \begin{aligned} \mathcal{J}_{GRPO}(\theta) &= \mathbb{E}_{q\sim\mathcal{D},\{y_i\}_{i=1}^G\sim\pi_{\text{old}}(\cdot|q;\mathcal{E})} \Bigg[ \frac{1}{G} \sum_{i=1}^G \frac{1}{\sum_{t=1}^{|y_i|} I(y_{i,t})} \sum_{t=1}^{|y_i|} I(y_{i,t}) \\ &\quad \cdot \min\left( \rho_t \hat{A}_{i,t}, \text{clip}(\rho_t, 1-\epsilon, 1+\epsilon) \hat{A}_{i,t} \right) \Bigg] - \beta D_{KL}[\pi_{\theta} \| \pi_{\text{ref}}] \end{aligned} JGRPO(θ)=Eq∼D,{yi}i=1G∼πold(⋅∣q;E)[G1i=1∑G∑t=1∣yi∣I(yi,t)1t=1∑∣yi∣I(yi,t)⋅min(ρtA^i,t,clip(ρt,1−ϵ,1+ϵ)A^i,t)]−βDKL[πθ∥πref]
其中:
- ρ t = π θ ( y i , t ∣ x , y i , < t ; R ) π old ( y i , t ∣ x , y i , < t ; R ) \rho_t = \frac{\pi_\theta(y_{i,t}|x,y_{i,<t};\mathcal{R})}{\pi_{\text{old}}(y_{i,t}|x,y_{i,<t};\mathcal{R})} ρt=πold(yi,t∣x,yi,<t;R)πθ(yi,t∣x,yi,<t;R)
- A ^ i , t \hat{A}_{i,t} A^i,t 表示响应 y i y_i yi中第 t t t个token的优势估计,基于组内奖励的相对排序计算
- β \beta β 控制KL正则化强度
- 剪切阈值 ϵ \epsilon ϵ保证稳定更新
2.5 OTC-PO
与仅考虑答案正确性(外加格式)的传统方法不同,本文提出的OTC-PO主张必须同时考虑工具集成推理轨迹的有效性和效率。具体而言,不同问题可能因模型内部能力差异需要不同次数的工具交互,且对于每个问题-模型对,存在一个生成正确答案所需的最优(即最小)工具调用次数。考虑到现实场景中工具调用的成本和延迟,必须突破仅关注答案的粗粒度奖励机制,转而提供能捕捉工具集成推理轨迹整体质量的细粒度信号。
为此,提出最优工具调用控制的策略优化(OTC-PO)。该框架可无缝集成至任何RL算法,并广泛适用于不同模型和场景,其核心目标是在保持整体准确性的同时显著降低工具交互成本。OTC-PO的核心奖励机制通过以下方式实现:根据当前轨迹工具调用次数 m m m与最优工具调用次数n的对比动态调整奖励。
在大多数现实场景中,真实最优调用次数n无法预先获知。为此,OTC-PO通过跟踪同一问题所有正确轨迹中观察到的最小工具调用次数来近似 n n n。此方法使模型能在无需先验知识的情况下学习高效工具使用。该框架还可自然扩展至已知最优工具预算的场景(例如纯语言推理场景n=0)。
2.5.1 OTC-PPO
由于单个优化步骤中同一问题 q q q不会产生多轨迹,根据当前轨迹工具调用次数 m m m设计工具奖励:
r tool = cos ( m ⋅ π 2 m + c ) r_{\text{tool}} = \cos\left(\frac{m \cdot \pi}{2m + c}\right) rtool=cos(2m+cm⋅π)
其中 c c c为控制奖励衰减速率的平滑常数。 c c c值越小,惩罚速度越快,越鼓励少用工具; c c c值越大,容忍度越高。该设计确保在多个轨迹中,工具调用次数越多的轨迹获得的奖励越低。尽管可通过跟踪 m m m来近似后续步骤中的 n n n,但实证发现PPO的采样效率较低,需要更长的训练步数。
2.5.2 OTC-GRPO
首先从组中筛选出产生正确答案的轨迹集合 { τ 1 , τ 2 , . . . , τ p } \{\tau^1, \tau^2, ..., \tau^p\} {τ1,τ2,...,τp},并记录每个轨迹的工具调用次数 C = { c 1 , c 2 , . . . , c p } \mathcal{C} = \{c^1, c^2, ..., c^p\} C={c1,c2,...,cp}。通过计算最小工具调用次数 k = min ( C ) k = \min(\mathcal{C}) k=min(C),将其作为问题 q q q的局部最优工具调用次数近似值。随着策略模型在后续迭代中发现更优解,可动态更新 k k k以逼近全局最优。用 n n n表示最优工具调用次数的近似值, m m m表示当前轨迹的工具调用次数,奖励函数设计如下:
r tool = { 1 if f ( m , n ) = n = 0 cos ( m ⋅ π 2 m + c ) if n = 0 sin ( f ( m , n ) ⋅ π 2 n ) else r_{\text{tool}} = \begin{cases} 1 & \text{if } f(m,n) = n = 0 \\ \cos\left(\frac{m \cdot \pi}{2m + c}\right) & \text{if } n = 0 \\ \sin\left(\frac{f(m,n) \cdot \pi}{2n}\right) & \text{else} \end{cases} rtool=⎩ ⎨ ⎧1cos(2m+cm⋅π)sin(2nf(m,n)⋅π)if f(m,n)=n=0if n=0else
其中映射函数 f ( m , n ) f(m,n) f(m,n)将 m m m重新映射至 [ 0 , 2 n ] [0, 2n] [0,2n]区间:
f ( m , n ) = { 0 , if m = 0 and n = 0 m , if n = 0 2 n m m + n , else f(m,n) = \begin{cases} 0, & \text{if } m=0 \text{ and } n=0 \\ m, & \text{if } n=0 \\ \frac{2nm}{m+n}, & \text{else} \end{cases} f(m,n)=⎩ ⎨ ⎧0,m,m+n2nm,if m=0 and n=0if n=0else
核心思想是:当实际工具调用次数 m m m等于最优次数 n n n时,赋予最高奖励1(即 sin ( π / 2 ) \sin(\pi/2) sin(π/2));当 m m m偏离 n n n(无论超额或不足)时,模型获得较低奖励。这种动态奖励分配机制使模型能根据具体问题调整工具使用策略。
2.5.3 工具集成奖励设计
将工具奖励 r tool r_{\text{tool}} rtool作为传统奖励函数 r ϕ ( q , y ) r_\phi(q,y) rϕ(q,y)的系数,构建最终的工具集成奖励函数:
r ϕ tool ( q , y ) = α ⋅ r tool ⋅ r ϕ ( q , y ) r_{\phi}^{\text{tool}}(q,y) = \alpha \cdot r_{\text{tool}} \cdot r_{\phi}(q,y) rϕtool(q,y)=α⋅rtool⋅rϕ(q,y)
其中 α \alpha α为控制工具奖励缩放程度的超参数。这种乘积结构确保仅在主任务目标(如答案正确性)达成时才激活工具效率奖励。即:
- 当答案错误时, r ϕ = 0 r_\phi=0 rϕ=0,完全屏蔽 r tool r_{\text{tool}} rtool的影响,防止模型通过无效工具调用获取奖励。
- 当答案正确时, r ϕ = 1 r_\phi=1 rϕ=1,此时 r tool r_{\text{tool}} rtool主导奖励规模,激励减少工具使用。
该设计具有以下优势: - 最大化保持准确性:该结构能保持总体准确率;
- 缓解奖励欺诈:相比加性奖励( r tool + r ϕ r_{\text{tool}} + r_\phi rtool+rϕ)更稳定;
- 强泛化性:兼容不同奖励形式(如 r ϕ = r correct r_\phi = r_{\text{correct}} rϕ=rcorrect或 r ϕ = r correct + r format r_\phi = r_{\text{correct}} + r_{\text{format}} rϕ=rcorrect+rformat)。
III. 实验
数据集和Baseline
- 遵循Search-R1和ToRL的实验设置,使用NQ和HotpotQA作为搜索工具的评估数据集,代码工具评估采用ToRL提供的数据集。
- 对比方法包括监督微调(SFT)、基础强化学习(Base-RL)、检索增强生成基线(RAG、IRCoT)以及最新的Search-R1和ToRL方法。
评估指标
- 精确匹配(EM):答案与标准答案完全匹配的比例。
- 平均工具调用次数(TC):推理轨迹中调用工具的平均次数。
- 工具生产力(TP, Tool Productivity):定义为正确回答的问题数 / 总工具调用次数,衡量工具使用的效率与效果平衡。
实验结果:
- 工具调用次数(TC):
- OTC-PPO在Qwen-3B模型上减少工具调用41.9%(NQ数据集)和40.2%(HotpotQA),7B模型减少68.3%(NQ)和60.9%(HotpotQA)。
- OTC-GRPO表现更优,7B模型在NQ数据集上工具调用减少69.8%,HotpotQA减少73.1%。
- 工具生产力(TP):
- OTC-PPO在7B模型上TP提升215.4%(NQ)和156.9%(HotpotQA)。
- OTC-GRPO在7B模型上TP最高提升229.4%(NQ)和256.9%(HotpotQA)。
- 准确性(EM):
- 方法在减少工具调用的同时保持与基线相当的EM,7B模型在NQ和HotpotQA的EM误差小于1%。