Try, Check and Retry: LLMの長い文脈におけるツール呼び出し性能を向上させる分割統治フレームワーク

arXiv cs.CL / 2026/3/13

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

Tool-DCは、LLMの長い文脈におけるツール呼び出し性能を向上させる分割統治フレームワークを提案します。
Try-Check-Retryというパラダイムを採用し、推論の難易度を低減し、LLMの自己反省能力を活用します。
このフレームワークには2つのバリアントがあります。学習不要のTF版（プラグアンドプレイで柔軟）、学習ベースのTB版（推論効率を高める）。
BFCLおよびACEBenchの実験で、Tool-DC（TF）はベースラインに対して平均で最大+25.10%の改善を達成します。
Tool-DC（TB）はQwen2.5-7Bを、OpenAI o3やClaude-Haiku-4.5などの商用LLMsと同等かそれ以上の性能に引き上げます。

要約: ツール呼び出しは、大規模言語モデル（LLMs）が外部環境と相互作用する能力を拡張します。しかし、現状の手法は、長い文脈を伴うツール呼び出しタスクにおいて、膨大でノイズの多い候補ツールを適切に扱うことが難しく、現実世界での適用を制限しています。この目的のため、我々は Tool-DC という、LLMs のツール呼び出し性能を向上させる分割統治フレームワークを提案します。Tool-DC の核は、推論の難易度を低減し、LLM の自己反省能力を最大限活用する「Try-Check-Retry」パラダイムを介して達成されます。具体的には、Tool-DC には2つのバリアントが含まれます。1) 学習不要の Tool-DC（TF）はプラグアンドプレイで柔軟、2) 学習ベースの Tool-DC（TB）は推論効率を高めます。広範な実験により、両方の Tool-DC 手法が、対応する従来手法よりも明確なマージンで上回ることが示されました。Tool-DC（TF）は BFCL および ACEBench のベンチマークにおいて、ベースラインに対して最大で +25.10% の平均的な改善をもたらします。一方、Tool-DC（TB）は Qwen2.5-7B が商用 LLMs に匹敵する、あるいはそれを上回る性能を達成できるようにします。例えば OpenAI o3 や Claude-Haiku-4.5 と同等レベルの性能を引き出すことが可能です。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/13Dailyインサイトを見る →

ChatGPT・Gemini・Claude 比較：用途別ベストAIの選び方

AI Navigate Original

設定・ショートカット集：使いこなすための効率化テクニック

AI Navigate Original

ChatGPT・Gemini・Claude 比較：用途別ベストAIの選び方

AI Navigate Original

Claudeが苦手なこと・注意点：ハルシネーションと限界の理解

AI Navigate Original

Claude Code 入門：ターミナルから使うAIコーディングアシスタント

AI Navigate Original

Try, Check and Retry: LLMの長い文脈におけるツール呼び出し性能を向上させる分割統治フレームワーク

要点

💡 この記事が使われたインサイト

関連記事

ChatGPT・Gemini・Claude 比較：用途別ベストAIの選び方

設定・ショートカット集：使いこなすための効率化テクニック

ChatGPT・Gemini・Claude 比較：用途別ベストAIの選び方

Claudeが苦手なこと・注意点：ハルシネーションと限界の理解

Claude Code 入門：ターミナルから使うAIコーディングアシスタント

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer