引言:当 Agent 学会用工具,信用该分给谁?
2026 年的 AI 领域,“工具使用”(tool use)已经从一个新奇特性变成了 Agent 系统的标配能力。无论是调用搜索引擎、执行代码、查询数据库还是操作 API,现代大语言模型(LLM)都需要在多步骤推理过程中灵活地选择和调用外部工具。
但一个核心问题一直困扰着研究者:当一个 Agent 经过多步工具调用最终得到正确(或错误)的答案时,我们如何知道哪一步工具调用才是关键决策? 这就是经典的信用分配问题(Credit Assignment Problem)。
Apple ML Research 在 ACL 2026 上发表的论文 PORTool(Importance-Aware Policy Optimization with Rewarded Tree for Multi-Tool-Integrated Reasoning)[1],由 Feijie Wu 等人(Apple/Purdue University)完成,提出了一种优雅的解决方案。其核心创新是奖励回滚树(Rewarded Rollout Tree)——通过让多条轨迹共享前缀然后在关键决策点分叉,直接对比不同工具调用选择的因果效应,从而实现精确的逐步信用分配。
本文将深入解读这篇论文的技术细节,分析其与现有方法的对比,并探讨它对 Agent 训练范式的深远影响。
信用分配问题:为什么传统 RL 在工具使用场景下失效?
问题的本质
假设一个 Agent 需要回答"2024年诺贝尔物理学奖得主的本科学校在哪个城市?“这个问题。它可能执行以下步骤:
- 工具调用 1:搜索"2024 Nobel Physics Prize winner” → 得到 John Hopfield 和 Geoffrey Hinton
- 工具调用 2:搜索"Geoffrey Hinton undergraduate university" → 得到 Cambridge
- 工具调用 3:搜索"Cambridge city location" → 得到英国剑桥
- 最终回答:英国剑桥 ✓
整个轨迹最终得到了正确答案,基于结果的奖励(outcome-based reward)给出 $r = 1$。但问题来了:
- 步骤 1 的搜索查询是否最优?也许搜索"2024 Nobel Physics laureate"会更好?
- 步骤 3 是否必要?也许步骤 2 的结果已经够用了?
- 如果把步骤 2 换成搜索"John Hopfield undergraduate",结果会怎样?
在传统的 RLHF 或 GRPO(Group Relative Policy Optimization)框架中,整条轨迹共享同一个奖励信号。这意味着所有步骤——包括冗余的、甚至有害的步骤——都会被等权重地强化或抑制。这就是信用分配歧义。
现有解决方案的局限
在 PORTool 之前,社区主要有两类解决信用分配的方法:
过程奖励模型(Process Reward Models, PRM):为每一步推理打分。但训练 PRM 本身需要大量高质量的逐步标注数据,而且在工具调用场景下,“一步推理"的边界本身就不清晰——一次 API 调用和对返回结果的解析算一步还是两步?
基于规则的启发式方法:例如检查工具调用是否返回了非空结果。这种方法过于粗糙,无法区分"正确但冗余"和"关键且必要"的工具调用。
Monte Carlo Tree Search (MCTS):虽然能探索不同路径,但计算成本极高,尤其是当每步都涉及真实的外部工具调用时。
PORTool 的核心创新:奖励回滚树
设计直觉
PORTool 的核心思想出奇地简洁:要判断一步工具调用的价值,最好的办法就是在同样的上下文下,对比"做了这步调用"和"做了另一个调用"的最终结果差异。
这就像科学实验中的对照组设计——控制变量,只改变一个因素,观察结果差异。
奖励回滚树的构建
具体来说,PORTool 的奖励回滚树(Rewarded Rollout Tree)按以下步骤构建:
第一步:生成共享前缀。 给定一个问题 $q$,模型首先生成推理轨迹的前 $k$ 步,形成一个共享前缀 $\tau_{1:k}$。
第二步:在决策点分叉。 在第 $k$ 步之后,模型从同一个前缀出发,独立采样 $N$ 条不同的后续轨迹。每条分支可能选择不同的工具、不同的查询参数、甚至选择不调用工具直接推理。
第三步:完整执行并评估。 每条分支都完整执行到底,包括真实的工具调用和最终答案生成。然后用结果奖励函数评估每条轨迹的最终质量。
第四步:对比分析。 由于所有分支共享相同的前缀,第 $k+1$ 步的不同选择直接导致了最终结果的差异。这种差异就是第 $k+1$ 步决策的因果效应。
用数学语言表达,对于前缀 $\tau_{1:k}$ 后的第 $j$ 条分支轨迹 $\tau^{(j)}_{k+1:T}$,其步骤重要性可以表示为:
$$I(\tau^{(j)}{k+1}) = R(\tau{1:k} \oplus \tau^{(j)}{k+1:T}) - \frac{1}{N}\sum{i=1}^{N} R(\tau_{1:k} \oplus \tau^{(i)}_{k+1:T})$$
其中 $R(\cdot)$ 是最终奖励函数,$\oplus$ 表示轨迹拼接。这个公式的含义很直观:一步决策的重要性 = 该决策带来的结果 - 所有替代决策的平均结果。
多层级树结构
PORTool 不只在一个决策点分叉,而是可以递归地在多个层级构建树结构。这意味着对于一条 5 步的推理轨迹,可以在第 1 步、第 3 步等多个关键位置设置分叉点,从而获得每一步的重要性信号。
在实践中,论文采用了一种自适应策略来选择分叉点:优先在工具调用决策点(而非纯文本推理步骤)设置分叉,因为工具调用通常是引入外部信息的关键节点。
逐步重要性感知的策略优化
有了回滚树提供的逐步重要性信号,PORTool 接下来设计了一套重要性感知的策略优化算法。
双重奖励信号
PORTool 为每一步工具调用定义了两个奖励信号:
1. 正确性主导信号(Correctness-Dominant Signal):来自回滚树对比的因果效应估计。如果从某步分叉后,选择工具 A 比选择工具 B 更可能得到正确答案,那么工具 A 获得更高的正确性信号。
2. 辅助工具执行信号(Auxiliary Tool Execution Signal):检查工具调用本身是否成功执行(例如 API 是否返回有效结果、代码是否无报错运行)。这是一个较弱的信号,但可以在结果奖励稀疏时提供有用的梯度。
最终的步骤级奖励组合为:
$$r_{\text{step}}(t) = \alpha \cdot I(t) + (1-\alpha) \cdot \mathbb{1}[\text{tool_success}(t)]$$
其中 $\alpha$ 是平衡系数,随训练进行逐渐增大(从依赖执行信号过渡到依赖因果效应信号)。
局部与全局质量的融合
PORTool 的策略优化同时考虑局部质量(每一步的重要性评分)和全局质量(整条轨迹的最终结果)。具体来说,在计算策略梯度时,每一步的权重为:
$$w(t) = \beta \cdot r_{\text{step}}(t) + (1-\beta) \cdot R_{\text{global}}$$
这种设计避免了两种极端:纯全局奖励会导致信用分配模糊,纯局部奖励则可能忽视步骤之间的协同效应。
方法对比:PORTool vs 现有范式
为了更清晰地理解 PORTool 的定位,以下是它与主流方法的系统对比:
| 维度 | 传统 RLHF/GRPO | 过程奖励模型 (PRM) | PORTool |
|---|---|---|---|
| 奖励粒度 | 轨迹级别 | 步骤级别 | 步骤级别 |
| 信用分配 | 无(等权分配) | 依赖 PRM 质量 | 因果对比,自动分配 |
| 额外标注需求 | 仅需最终答案 | 需要逐步标注 | 仅需最终答案 |
| 额外模型需求 | 无 | 需要训练 PRM | 无 |
| 工具调用感知 | 否 | 取决于标注 | 是(专为工具设计) |
| 计算开销 | 低 | 中(PRM推理) | 中(多分支采样) |
| 因果可解释性 | 无 | 弱 | 强(直接对比) |
| 冗余步骤检测 | 不能 | 有限 | 能(低重要性=冗余) |
从表中可以看出,PORTool 的最大优势在于:不需要任何额外的标注数据或辅助模型,仅通过巧妙的采样策略就实现了步骤级信用分配。 代价是需要在每个分叉点进行多次采样和完整执行,增加了训练时的计算开销。
实验结果
PORTool 在多个工具使用基准上展示了显著的提升:
准确率提升
在 ToolBench、API-Bank 等标准评测集上,PORTool 相比基线 GRPO 方法取得了一致的准确率提升。尤其在需要 3 步以上工具调用的复杂问题上,提升幅度更为显著——这恰恰是信用分配问题最严重的场景。
工具调用效率
一个有趣的发现是,PORTool 训练出的模型不仅更准确,而且使用更少的工具调用步骤。这是因为精确的信用分配使模型学会了识别哪些工具调用是冗余的。通过抑制低重要性步骤的策略概率,模型自然地学会了更简洁的推理路径。
消融实验
论文的消融实验验证了几个关键设计选择:
- 去掉辅助执行信号:准确率下降约 2-3%,说明执行反馈在训练早期有价值
- 去掉局部-全局融合(仅用局部):性能下降明显,验证了全局信号的必要性
- 减少分支数量(从 8 减到 2):性能下降,但计算成本大幅降低,存在实用的折中点
与 Reinforced Agent 的联系
值得注意的是,Apple 在同一会议(ACL 2026)上还发表了另一篇相关工作——Reinforced Agent [2]。如果说 PORTool 解决的是训练时的信用分配问题,那么 Reinforced Agent 则关注推理时的质量控制。
Reinforced Agent 引入了一个推理时的 reviewer agent,在 Agent 执行过程中实时评估其行为的有用性(helpfulness)和有害性(harmfulness)。实验中使用 o3-mini 作为 reviewer,发现其带来的收益-风险比(benefit-to-risk ratio)达到 3:1——即引入 reviewer 带来的准确率提升是其引入的额外延迟和潜在错误的 3 倍。
这两篇论文构成了一个完整的 Agent 优化闭环:
| |
PORTool 让模型在训练阶段就学会做更好的工具调用决策,Reinforced Agent 则在推理阶段提供额外的安全网。 二者结合,可以同时提升 Agent 的能力上限和可靠性下限。
技术深度分析:为什么回滚树比其他因果推断方法更适合?
读到这里,熟悉因果推断的读者可能会问:直接用反事实推断(counterfactual reasoning)或 do-calculus 来估计每步的因果效应不是更优雅吗?
PORTool 选择回滚树而非传统因果推断方法,有几个务实的原因:
1. 工具调用的不可微性。 外部工具(搜索引擎、代码执行器)是黑盒系统,无法对其进行梯度传播。回滚树通过实际执行来获取信号,绕开了这个问题。
2. 环境的随机性。 同一个搜索查询在不同时间可能返回不同结果。回滚树通过在同一时间窗口内进行多次采样,自然地平均了这种随机性。
3. 步骤间的交互效应。 工具调用之间存在复杂的依赖关系——步骤 2 的最优选择取决于步骤 1 返回了什么。回滚树的前缀共享设计天然地控制了这种依赖。
4. 实现简洁性。 回滚树不需要引入任何新的模型架构或训练目标,只需要修改采样策略。这使得它可以轻松地集成到现有的 RLHF/GRPO 训练流水线中。
局限性与未来方向
尽管 PORTool 提出了一种优雅的解决方案,它仍然存在一些值得讨论的局限:
计算成本:构建回滚树需要在每个分叉点进行多次完整的轨迹采样。对于涉及昂贵 API 调用的场景(如付费搜索 API),这可能不太实际。未来的工作可以探索使用模拟器或缓存来降低成本。
分叉点选择:当前论文主要在工具调用边界处设置分叉点。但在一些场景中,关键决策可能发生在工具调用之前的推理阶段(例如决定调用哪个工具)。更细粒度的分叉策略值得探索。
长轨迹的可扩展性:当轨迹长度超过 10 步时,树的规模会指数增长。论文中使用的 5-8 步轨迹在实际应用中可能不够。层次化的采样策略可能是一个方向。
与其他训练范式的结合:PORTool 当前基于 GRPO 框架。将回滚树的思想扩展到 PPO、DPO 等其他训练算法是一个自然的后续工作。
更广泛的意义
PORTool 的出现标志着 Agent 训练领域的一个重要转变:从"用结果反馈训练端到端行为"到"用因果推断精确优化每一步决策”。
这种思路的影响可能超越工具使用本身。任何涉及多步决策、与外部环境交互的场景——包括机器人控制、对话系统、自动驾驶——都面临类似的信用分配挑战。PORTool 的回滚树方法提供了一种通用的、不依赖额外标注的解决思路。
更值得关注的是 Apple 在这一方向上的战略布局。结合 PORTool(训练优化)和 Reinforced Agent(推理安全),Apple 正在构建一套完整的 Agent 能力框架。考虑到 Apple 产品生态中对安全性和可靠性的极高要求,这种"训练+推理"双重保障的策略有着明确的产品落地指向。
结语
PORTool 的贡献可以用一句话概括:通过"分叉对比"这个简洁的思想,将不可观测的信用分配问题转化为可直接计算的因果效应估计。
在 Agent 系统日益复杂的今天,如何有效训练这些系统做出正确的工具使用决策,是一个既有理论深度又有实践价值的问题。PORTool 给出了一个漂亮的答案——不是通过更复杂的模型,而是通过更聪明的数据生成策略。
这或许也暗示了 AI 研究的一个趋势:在模型架构趋于收敛的时代,训练方法论的创新正在成为新的前沿。
参考文献
Feijie Wu, et al. “PORTool: Importance-Aware Policy Optimization with Rewarded Tree for Multi-Tool-Integrated Reasoning.” ACL 2026. Apple ML Research / Purdue University.
Apple ML Research. “Reinforced Agent: Inference-Time Reviewer for Safe and Helpful Tool-Use Agents.” ACL 2026.
Shunyu Yao, et al. “ReAct: Synergizing Reasoning and Acting in Language Models.” ICLR 2023. — 工具使用 Agent 的基础框架。
Rafael Rafailov, et al. “Direct Preference Optimization: Your Language Model is Secretly a Reward Model.” NeurIPS 2023. — DPO 方法,PORTool 在此基础上扩展了步骤级优化。