オープンで信頼でき、そして共同的に：ツールを使うAIエージェントのためのコミュニティ主導型フレームワーク

arXiv cs.AI / 2026/4/2

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

本論文は、ツールを用いるLLMエージェントにおける信頼性の問題は、ツール呼び出しの正確さ（エージェントがどのように／いつツールを呼び出すかを判断すること）と、内在するツールの正確さ（ツール自体の正しさ）の両方に起因すると主張しており、これまでの研究は前者により重点が置かれていた点を指摘している。
コミュニティ主導のフレームワークであるOpenToolsを導入し、ツールのスキーマを標準化するとともに、エージェントのアーキテクチャ間でツールを容易に統合できるプラグアンドプレイ型のラッパーを提供する。
OpenToolsでは、自動テストスイートに加えて継続的なモニタリングによってツールを評価し、ツールが変更されても更新されうる信頼性レポートを公開する。
さらに、事前に定義されたエージェントとツールを用いた公開Webデモを提供し、ユーザーがタスクを実行できるだけでなく、テストケースを提供してカバレッジと評価を改善できるようにする。
実験の結果として、エンドツーエンドの再現性とタスク性能が向上したと報告されており、コミュニティが提供したタスク特化型ツールが既存のツールボックスに対して相対的に6%〜22%の改善をもたらしたことが示され、内在するツールの正確さの重要性が裏付けられる。

概要: ツール統合型LLMは、外部ツールを介して情報の取得、計算、そして現実世界での実行を行えますが、信頼性は依然として主要なボトルネックです。私たちは、失敗の原因が、ツール使用の正確さ（エージェントがツールをどれだけ適切に呼び出すか）と、固有のツール正確さ（ツール自体の正しさ）の両方にあると主張します。一方で、先行研究の多くは前者に重点を置いています。私たちは、ツールスキーマを標準化し、軽量なプラグアンドプレイのラッパーを提供し、自動テストスイートと継続的な監視によってツールを評価する、コミュニティ主導のツールボックス「OpenTools」を提案します。また、ユーザーが事前定義されたエージェントとツールを実行し、テストケースを提供できるパブリックなウェブデモも公開します。これにより、ツールが変化するにつれて信頼性レポートが発展していきます。OpenToolsには、コアとなるフレームワーク、最初のツールセット、評価パイプライン、および貢献プロトコルが含まれます。実験と評価の結果、エンドツーエンドの再現性とタスク性能が向上することが示されました。さらに、コミュニティが貢献した高品質なタスク特化ツールは、下流タスクとベンチマークにおいて、複数のエージェントアーキテクチャにわたって、既存のツールボックスに対し相対的に6%〜22%の改善をもたらします。これは、固有のツール正確さの重要性を強調しています。