要旨: テキストと画像を交互に生成することは、多モーダル大規模言語モデル(MLLMs)にとって重要な最前線であり、複雑な情報をより直感的に伝える手段を提供します。現在のパラダイムは、画像生成または検索拡張のいずれかに依存していますが、通常はこの2つを相互に排他的な経路として扱ってしまい、事実性と創造性を統合できていません。本研究では、この分野における次のマイルストーンはエージェント型ツール計画(Agentic Tool Planning)だと主張します。ここでは、モデルが中核となるコントローラとして機能し、視覚的に重要な(visual-critical)問い合わせに対して、テキストと画像が交互に現れる応答を生成するために、いつ・どこで・どのツールを呼び出すべきかを自律的に判断します。このパラダイムを体系的に評価するために、8つのカテゴリと25の視覚的に重要な意図にまたがる7,702のQAペア(1,592のVQAペアを含む)から成る新しいベンチマークであるATP-Benchを提案します。そこでは、人手で検証された問い合わせと正解(ground truth)が含まれます。さらに、エンドツーエンドの実行や、変化するツールのバックエンドから独立したエージェント型計画を評価するために、マルチエージェントMLLM-as-a-Judge(MAM)システムを提案します。MAMは、ツール呼び出しの精度を評価し、ツール利用の見逃し機会を特定し、正解参照(ground-truth references)を必要とせずに応答全体の品質を評価します。10の最先端MLLMに対して行った広範な実験の結果、モデルは首尾一貫した交互計画に苦戦しており、ツール利用行動には大きなばらつきが見られることがわかりました。これは、改善の余地が大きいことを示すと同時に、交互生成を前進させるための実行可能な指針を提供します。データセットとコードは https://github.com/Qwen-Applications/ATP-Bench で公開されています。
ATP-Bench:MLLMのインタリーブ生成に向けたエージェント的ツール計画
arXiv cs.AI / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多モーダルLLMにおけるテキストと画像のインタリーブ生成は、エージェント的ツール計画へ進むべきだと主張する。すなわち、モデルが視覚に関するクリティカルな意図を満たすために、いつ・どのツールを呼び出すかを自律的に判断する。
- 7,702件のQAペアを8つのカテゴリで構成し、25の視覚に関するクリティカルな意図を含む新しいベンチマーク「ATP-Bench」を導入する。人手で検証されたクエリと正解(ground truths)を含む。
- ツール計画の質を、完全なエンドツーエンド実行へ結果を結び付けることなく評価するために、Multi-Agent MLLM-as-a-Judge(MAM)を提案する。これは、ツール呼び出しの適合度(precision)、ツール使用の見落とし、そして応答の品質をスコア化し、正解参照(ground-truth references)を必須としない。
- 10の最先端MLLMに対する実験では、ツール利用行動が一貫していないことや、首尾一貫したインタリーブ計画が難しいことが示され、エージェント的なモーダル生成を改善する大きな余地があることが明らかになった。




