ATP-Bench：MLLMのインタリーブ生成に向けたエージェント的ツール計画

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多モーダルLLMにおけるテキストと画像のインタリーブ生成は、エージェント的ツール計画へ進むべきだと主張する。すなわち、モデルが視覚に関するクリティカルな意図を満たすために、いつ・どのツールを呼び出すかを自律的に判断する。
7,702件のQAペアを8つのカテゴリで構成し、25の視覚に関するクリティカルな意図を含む新しいベンチマーク「ATP-Bench」を導入する。人手で検証されたクエリと正解（ground truths）を含む。
ツール計画の質を、完全なエンドツーエンド実行へ結果を結び付けることなく評価するために、Multi-Agent MLLM-as-a-Judge（MAM）を提案する。これは、ツール呼び出しの適合度（precision）、ツール使用の見落とし、そして応答の品質をスコア化し、正解参照（ground-truth references）を必須としない。
10の最先端MLLMに対する実験では、ツール利用行動が一貫していないことや、首尾一貫したインタリーブ計画が難しいことが示され、エージェント的なモーダル生成を改善する大きな余地があることが明らかになった。

要旨: テキストと画像を交互に生成することは、多モーダル大規模言語モデル（MLLMs）にとって重要な最前線であり、複雑な情報をより直感的に伝える手段を提供します。現在のパラダイムは、画像生成または検索拡張のいずれかに依存していますが、通常はこの2つを相互に排他的な経路として扱ってしまい、事実性と創造性を統合できていません。本研究では、この分野における次のマイルストーンはエージェント型ツール計画（Agentic Tool Planning）だと主張します。ここでは、モデルが中核となるコントローラとして機能し、視覚的に重要な（visual-critical）問い合わせに対して、テキストと画像が交互に現れる応答を生成するために、いつ・どこで・どのツールを呼び出すべきかを自律的に判断します。このパラダイムを体系的に評価するために、8つのカテゴリと25の視覚的に重要な意図にまたがる7,702のQAペア（1,592のVQAペアを含む）から成る新しいベンチマークであるATP-Benchを提案します。そこでは、人手で検証された問い合わせと正解（ground truth）が含まれます。さらに、エンドツーエンドの実行や、変化するツールのバックエンドから独立したエージェント型計画を評価するために、マルチエージェントMLLM-as-a-Judge（MAM）システムを提案します。MAMは、ツール呼び出しの精度を評価し、ツール利用の見逃し機会を特定し、正解参照（ground-truth references）を必要とせずに応答全体の品質を評価します。10の最先端MLLMに対して行った広範な実験の結果、モデルは首尾一貫した交互計画に苦戦しており、ツール利用行動には大きなばらつきが見られることがわかりました。これは、改善の余地が大きいことを示すと同時に、交互生成を前進させるための実行可能な指針を提供します。データセットとコードは https://github.com/Qwen-Applications/ATP-Bench で公開されています。