Reinforced Agent：ツール呼び出しエージェントにおける推論時フィードバック

arXiv cs.AI / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文では「Reinforced Agent」を提案し、ツール呼び出しの評価を推論時の実行ループに組み込み、専用のレビュー担当エージェントが実行前の暫定ツール呼び出しを判定します。
主実行エージェントと副レビューエージェントを役割分離することで、事後的なエラー検出だけに頼るのではなく、事前のエラー抑制へとパラダイムを切り替えることを狙っています。
著者らは、フィードバックがベースエージェントの誤りをどれだけ訂正するか（helpfulness）と、正しい判断をどれだけ悪化させるか（harmfulness）を定量化するHelpfulness-Harmfulness指標を導入します。
BFCLおよびTau2-Benchでの実験では、無関係性の検出で+5.5%、マルチターンのタスクで+7.1%の改善が確認され、レビュー側モデルの選び方が効果とリスクのバランスに大きく影響することが示されます。
レビューワ推論モデルとしてo3-miniを使うとGPT-4oよりも正味の比率で優れることに加え、GEPAによる自動プロンプト最適化によりさらに約+1.5〜2.8%の向上が得られ、ベースエージェントの再学習なしで改善できると結論づけています。

Dev.to

ITmedia AI+

Reddit r/artificial

Dev.to

ITmedia AI+