Try, Check and Retry: LLMの長い文脈におけるツール呼び出し性能を向上させる分割統治フレームワーク
arXiv cs.CL / 2026/3/13
📰 ニュースTools & Practical UsageModels & Research
要点
- Tool-DCは、LLMの長い文脈におけるツール呼び出し性能を向上させる分割統治フレームワークを提案します。
- Try-Check-Retryというパラダイムを採用し、推論の難易度を低減し、LLMの自己反省能力を活用します。
- このフレームワークには2つのバリアントがあります。学習不要のTF版(プラグアンドプレイで柔軟)、学習ベースのTB版(推論効率を高める)。
- BFCLおよびACEBenchの実験で、Tool-DC(TF)はベースラインに対して平均で最大+25.10%の改善を達成します。
- Tool-DC(TB)はQwen2.5-7Bを、OpenAI o3やClaude-Haiku-4.5などの商用LLMsと同等かそれ以上の性能に引き上げます。
要約: ツール呼び出しは、大規模言語モデル(LLMs)が外部環境と相互作用する能力を拡張します。しかし、現状の手法は、長い文脈を伴うツール呼び出しタスクにおいて、膨大でノイズの多い候補ツールを適切に扱うことが難しく、現実世界での適用を制限しています。この目的のため、我々は Tool-DC という、LLMs のツール呼び出し性能を向上させる分割統治フレームワークを提案します。Tool-DC の核は、推論の難易度を低減し、LLM の自己反省能力を最大限活用する「Try-Check-Retry」パラダイムを介して達成されます。具体的には、Tool-DC には2つのバリアントが含まれます。1) 学習不要の Tool-DC(TF)はプラグアンドプレイで柔軟、2) 学習ベースの Tool-DC(TB)は推論効率を高めます。広範な実験により、両方の Tool-DC 手法が、対応する従来手法よりも明確なマージンで上回ることが示されました。Tool-DC(TF)は BFCL および ACEBench のベンチマークにおいて、ベースラインに対して最大で +25.10% の平均的な改善をもたらします。一方、Tool-DC(TB)は Qwen2.5-7B が商用 LLMs に匹敵する、あるいはそれを上回る性能を達成できるようにします。例えば OpenAI o3 や Claude-Haiku-4.5 と同等レベルの性能を引き出すことが可能です。