MTA-Agent:マルチモーダル・ディープ検索エージェントのためのオープンなレシピ

arXiv cs.CV / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、画像とテキストの両方からエビデンスを取得し、検証したうえで、エビデンスに基づくQAの統合を行うためのマルチモーダル・ディープ検索エージェント「MTA-Agent」を提案する。エージェントは、ツールとパラメータを自動的に選択する。
  • VQAのシードから生成し、多段階のチェックで事実整合性と回答の一意性をフィルタリングして作成した、検証済みのマルチホップのビジョン・ランゲージ学習データセット「MTA-Vision-DeepSearch」を構築した。21K件の高品質例を含む。
  • このデータを用いて、32Bのオープンソース・マルチモーダル検索エージェントが、同一のツール設定のもとで6つのベンチマークの平均で54.63%に到達したと報告されており、GPT-5(51.86%)やGemini系の手法を上回る。
  • 著者らは、本データセットで学習することで推論の深さが増し、ツール使用の挙動が改善されることを見出した。検索ステップの平均は2.27から4.28へ増加し、より体系的な検索戦略が得られた。
  • さらに、リアルタイムの呼び出しを行うのではなく、キャッシュされたツールのやり取りを再生(リプレイ)することでコストを削減する学習アプローチも提案している。また、再現性のためにデータセット全体と実装の詳細を公開する。

Abstract

マルチモーダル大規模言語モデル(MLLM)は視覚理解において強力な能力を示してきましたが、深い探索を要し、視覚的証拠を外部知識と統合するような複雑で多段階の推論には依然として限界があります。本研究では、この課題に対処するために、マルチモーダルなディープサーチ・エージェント向けの、高品質で検証済みのマルチホップ・ビジョン言語学習データを構築します。提案するのは、証拠に基づくQA合成のためのマルチホップ・ツール拡張エージェント(MTA-Agent)であり、視覚ソースとテキストソースの両方から証拠を取得し検証するために、ツールとそのパラメータを自動的に選択し、構造化されたマルチホップの質問—回答トラジェクトリを生成します。多様なVQAのシード・データセットから出発し、我々のパイプラインは、大規模な学習データセットMTA-Vision-DeepSearchを生成します。このデータセットには、21K件の高品質なマルチホップ事例が含まれます。データは、事実整合性と回答の一意性を保証するために、多段階の検証プロセスを通じてフィルタリングされます。MTA-Vision-DeepSearchを用いることで、32Bのオープンソースなマルチモーダル検索エージェントは、6つの難しいベンチマークにおける平均54.63\%という最先端の性能を達成し、同一のツール設定下でGPT-5(51.86\%)、Gemini-2.5-Pro(50.98\%)、Gemini-3-Pro(54.46\%)を上回ります。さらに、我々のデータで学習すると、推論の深さとツール利用の振る舞いの両方が向上し、ステップ数の平均が2.27から4.28へ増加し、より体系的で持続的な探索戦略につながることを示します。加えて、キャッシュされた相互作用をリプレイすることでリアルタイムのツール呼び出しなしに学習できることも示し、学習コストを大幅に削減します。重要な点として、MTA-Agentをマルチモーダル・ディープサーチの完全にオープンなレシピとして提示します。再現性を可能にし、オープンなマルチモーダル検索エージェントに関する今後の研究を促進するために、データセット全体、学習トラジェクトリ、実装の詳細を公開します。