ツール過剰使用の錯覚：なぜLLMは内部知識より外部ツールを好むのか

arXiv cs.AI / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、内部知識だけで足りる状況でも、推論の過程でLLMが外部ツールを不必要に使いすぎる現象が幅広く存在することを明らかにします。
問題の一部は「知識のエピステミック錯覚」にあるとされ、モデルが自分の実際の知識境界を誤って判断し、その結果として不要なツール呼び出しが増えると説明されています。
それへの対策として、著者らは直接選好最適化（direct preference optimization）に基づく「知識を考慮したエピステミック境界アラインメント」手法を提案し、ツール使用を82.8%削減しつつ精度も向上させました。
また、報酬設計が重要であることも示されます。最終的な正解のみを報いる「結果のみの報酬（outcome-only rewards）」は、ツール効率を考慮しないため因果的にツール過剰使用を促し得ます。
学習時の報酬シグナルを調整することで、不要なツール呼び出しを7Bで66.7%、32Bで60.7%削減し、精度を損なわないことを検証しています。