ツールはいつ信頼すべきか?ツール統合型数学推論に向けた適応的ツール信頼キャリブレーション

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、大規模推論モデルにおけるツール統合推論(TIR)を分析し、ツール出力と矛盾する場合に内部推論を過信する傾向、または正しいツール結果を無視する(「Tool Ignored」)傾向のいずれかに陥りやすいことを見出す。
  • 現在のツール統合モデルには、ツール実行の結果をいつ信頼し、いつ無視すべきかを判断するための信頼できるメカニズムが欠けていると主張する。
  • これに対処するため、著者らは、生成されたコードブロックの信頼度スコアを用いて、ツール結果を信頼するかどうかを適応的に決定するAdaptive Tool Trust Calibration(ATTC)を提案する。
  • 複数のオープンソースTIRモデル、データセットの種類、モデルサイズにまたがる実験により、ATTCは「Tool Ignored」の失敗モードを低減し、全体の性能を4.1%から7.5%改善することが示される。

Abstract

大規模推論モデル(LRM)は、テスト時計算をスケーリングすることで強い性能向上を達成してきましたが、基盤となる言語モデルの内在する制約のために、正確な計算や広範な知識ストックを必要とするタスクでは依然として不十分な点があります。ツール統合型推論(TIR)は、推論の軌跡の中にツール呼び出しと実行を組み込むことで、そのような課題に取り組む有望なパラダイムとして登場しました。最近の研究ではいくつかの強力なオープンソースTIRモデルが公開されていますが、私たちの分析によれば、これらのモデルはいまだに重要な欠陥を抱えています。モデルの推論がツール結果と矛盾する場合、モデルは自分自身の推論を信じがちであることを見出しました。また、ツール結果が正しいにもかかわらずモデルに無視され、誤った回答につながる場合があり、これを「Tool Ignored(ツール無視)」と定義します。これは、モデルがツールをどのタイミングで信頼するべきか、あるいは無視すべきかを知らないことを示しています。これらの制約を克服するために、私たちはAdaptive Tool Trust Calibration(ATTC)を導入します。これは、生成されたコードブロックの信頼度スコアに基づいて、ツール結果を信頼するか無視するかをモデルが適応的に選べるよう導く、新しい枠組みです。さまざまなサイズの異なるオープンソースTIRモデルを対象とし、複数のデータセットにわたって行った実験結果は、ATTCが「Tool Ignored」問題を効果的に低減し、その結果として4.1%から7.5%の性能向上につながることを示しています。