要旨: ツールによって補強された推論は、LLMベースのエージェントにおいて人気の方向性となっており、推論と信頼性が改善されることが広く期待されています。しかし我々は、この見解が常に成り立つわけではないことを示します。すなわち、意味的な注意そらし(セマンティック・ディストラクタ)が存在する場合、ツールによって補強された推論は必ずしもネイティブなCoT(Chain-of-Thought:思考の連鎖)より優れません。この性能差を説明するために、プロンプト整形のコスト、ツール呼び出しプロトコルのオーバーヘッド、そしてツールを実行することによる実際の利得を切り分ける、因数分解された介入(Factorized Intervention)フレームワークを提案します。分析の結果、重要なトレードオフが明らかになりました。すなわち、意味的ノイズの下では、ツールによる利得が、ツール呼び出しプロトコルそのものが導入する性能劣化である「ツール使用税(tool-use tax)」を相殺できないことが多いのです。この問題に対処するため、プロトコルに起因する誤りを緩和する軽量な推論時ゲートとしてG-STEPを導入します。これにより部分的な回復は得られますが、我々の結果は、より大きな改善を得るには、モデルの固有の推論能力およびツールとの相互作用能力をさらに強化する必要があることを示唆しています。
ツールだけで十分?LLMエージェントにおけるツール使用税(Tool-Use Tax)の解明
arXiv cs.AI / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMエージェントにおけるツール併用推論が常に信頼性を高めるという前提に異議を唱え、意味的なディストラクタがある状況ではネイティブのチェーン・オブ・ソート(CoT)が上回る場合があることを示します。
- 著者らは、プロンプト整形にかかるコスト、ツール呼び出しプロトコルのオーバーヘッド、ツール実行による実際の得失を切り分けるための「Factorized Intervention Framework」を提案しています。
- 分析の結果、意味的ノイズ下では、ツールによる利益が「ツール使用税(tool-callingプロトコル自体がもたらす性能低下)」を相殺できないことが重要なトレードオフとして明らかになります。
- プロトコル起因の誤りを抑えるために、推論時に軽量なゲーティングを行うG-STEPを提案し、性能の部分的な回復を示します。
- 大きな改善には、プロンプトやツールの使い方の工夫だけでなく、モデル固有の推論力とツールとの相互作用能力を強化する必要があるという結論が示されています。



