ツールはいつ信頼すべきか?ツール統合型数学推論に向けた適応的ツール信頼キャリブレーション
arXiv cs.CL / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、大規模推論モデルにおけるツール統合推論(TIR)を分析し、ツール出力と矛盾する場合に内部推論を過信する傾向、または正しいツール結果を無視する(「Tool Ignored」)傾向のいずれかに陥りやすいことを見出す。
- 現在のツール統合モデルには、ツール実行の結果をいつ信頼し、いつ無視すべきかを判断するための信頼できるメカニズムが欠けていると主張する。
- これに対処するため、著者らは、生成されたコードブロックの信頼度スコアを用いて、ツール結果を信頼するかどうかを適応的に決定するAdaptive Tool Trust Calibration(ATTC)を提案する。
- 複数のオープンソースTIRモデル、データセットの種類、モデルサイズにまたがる実験により、ATTCは「Tool Ignored」の失敗モードを低減し、全体の性能を4.1%から7.5%改善することが示される。




