要約: 最近の進歩は、多モーダル大規模言語モデル(MLLMs)を、標準的な視覚質問応答を超えて、高度な視覚タスクのために外部ツールを活用することへ拡張しています。限られたツールセットと単純なツール使用の軌道に制約され、既存のベンチマークは複雑で多様なツールの相互作用を捉えきれず、実用的で現実世界の条件下でのモデルの性能評価には不十分です。このギャップを埋めるため、VisualToolChain-Bench~(VTC-Bench)という、MLLMsにおけるツール使用能力を評価するための総合的なベンチマークを導入します。現実的なコンピュータビジョンパイプラインに合わせて、私たちのフレームワークは32種類の多様なOpenCVベースの視覚操作を備えています。この豊富なツールセットは、広範な組み合わせを可能にし、VTC-Benchがマルチツールの組み合わせと長期・多段階の計画実行を厳密に評価できるようにします。正確な評価のため、9つのカテゴリにまたがる認知階層に構造化された680個の精選問題を提供し、それぞれに正解の実行軌跡を付与しています。19の主要なMLLMを対象とした広範な実験は、現在のモデルの視覚的エージェント能力における重大な限界を明らかにしています。具体的には、モデルは多様なツールセットへ適応し、未知の操作へ一般化することに苦労しており、先行モデル Gemini-3.0-Pro は当ベンチマークでわずか51%しか達成していません。さらに、マルチツールの組み合わせは依然として持続的な課題です。複雑なタスクに直面すると、モデルは効率的な実行計画を立てるのに苦労し、最適なツールを選択する代わりに、馴染みのある機能の狭く、サブオプティマムなサブセットに過度に依存します。これらの根本的な課題を特定することにより、VTC-Benchはより一般化された視覚エージェントモデルの開発を導くための厳格なベースラインを確立します。
VTC-Bench: 構成的な視覚ツール連鎖を用いたエージェント型マルチモーダルモデルの評価
arXiv cs.AI / 2026/3/17
📰 ニュースTools & Practical UsageModels & Research
要点
- VTC-Bench は、ビジュアルマルチモーダル LLM のツール使用能力を評価する総合ベンチマークとして紹介され、OpenCV ベースの視覚操作が32個、9カテゴリの認知階層にまたがる680の厳選問題を特徴とする。
- 19の主要なマルチモーダルLLMに対する実験では、現行のモデルが多様なツールセットへ適応すること、見たことのない操作へ一般化すること、複数のツールを組み合わせて複雑なタスクをこなすことに苦戦することが示され、Gemini-3.0-Pro はベンチマークでわずか51%のスコアとなった。
- 本ベンチマークは現実的なコンピュータビジョンパイプラインに適合し、ツールの組み合わせと長期的な計画の厳密な評価を可能にするグラウンドトゥルース実行軌跡を提供する。
- これらの限界を特定することにより、VTC-Bench はより一般化された視覚エージェント型モデルの開発を導く基準を確立する。




