CCTU: 複雑な制約下でのツール使用のベンチマーク

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

著者らは CCTU を紹介する。これは、複雑な制約の下での LLM のツール使用を評価するためのベンチマークであり、リソース、行動、ツールセット、応答の4領域にまたがる12種類の制約カテゴリーの分類法を含む。
CCTU には、200 件の厳選されたテストケースが含まれており、各ケースは平均して約7種類の制約タイプを含み、プロンプトは4,700トークンを超える長さである。
彼らは、ステップ単位の検証を実行する実行可能な制約検証モジュールを提供し、マルチターン対話中の制約遵守を強制する。
9つの最先端の LLM が、思考モードと非思考モードの2つのモードで評価され、厳格な制約下でのタスク完了率は20%未満、制約違反はケースの50％を超えることが明らかになった。特にリソースと応答の次元で顕著だった。
結果は、詳しいフィードバック後の自己修正が限定的であることを示唆しており、著者らは今後の研究を支援するデータとコードを公開する。

概要: 明示的な制約の下でツールを使用して問題を解決することは、巨大言語モデル（LLMs）にとって非常に困難でありながら回避不能な状況を構成し、機能呼び出し、命令遵守、自己改善といった能力を必要とする。
しかし、専用の評価の欠如が進歩を妨げてきた。
これに対処するために、複雑な制約下でのLLMのツール使用を評価するベンチマークであるCCTUを導入する。
CCTUは、4つの次元（すなわち資源、行動、ツールセット、応答）にまたがる12の制約カテゴリの分類法に基づいている。
このベンチマークは、多様なツール使用シナリオにわたる200件の慎重に精選され、挑戦的なテストケースで構成され、各ケースは平均7種類の制約タイプを含み、平均プロンプト長は4,700トークンを超える。
信頼性の高い評価を可能にするため、ステップ単位の検証を行い、モデルとその環境間の複数ターンの相互作用中に準拠を強制する実行可能な制約検証モジュールを開発する。
我々は9つの最先端のLLMを思考モードと非思考モードの両方で評価した。
結果は、すべての制約を厳密に遵守する必要がある場合、いかなるモデルもタスク完了率を20％を超えることはできなかったことを示している。
さらに、分析の結果、モデルは50％を超えるケースで制約に違反しており、特に資源と応答の次元で顕著である。
また、制約違反に関する詳細なフィードバックを受けた後でも、自己改善の能力は限定的であり、堅牢なツール使用エージェントの開発における重要なボトルネックを浮き彫りにしている。
今後の研究を促進するため、データとコードを公開する。