MTA-Agent:マルチモーダル・ディープ検索エージェントのためのオープンなレシピ
arXiv cs.CV / 2026/4/9
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、画像とテキストの両方からエビデンスを取得し、検証したうえで、エビデンスに基づくQAの統合を行うためのマルチモーダル・ディープ検索エージェント「MTA-Agent」を提案する。エージェントは、ツールとパラメータを自動的に選択する。
- VQAのシードから生成し、多段階のチェックで事実整合性と回答の一意性をフィルタリングして作成した、検証済みのマルチホップのビジョン・ランゲージ学習データセット「MTA-Vision-DeepSearch」を構築した。21K件の高品質例を含む。
- このデータを用いて、32Bのオープンソース・マルチモーダル検索エージェントが、同一のツール設定のもとで6つのベンチマークの平均で54.63%に到達したと報告されており、GPT-5(51.86%)やGemini系の手法を上回る。
- 著者らは、本データセットで学習することで推論の深さが増し、ツール使用の挙動が改善されることを見出した。検索ステップの平均は2.27から4.28へ増加し、より体系的な検索戦略が得られた。
- さらに、リアルタイムの呼び出しを行うのではなく、キャッシュされたツールのやり取りを再生(リプレイ)することでコストを削減する学習アプローチも提案している。また、再現性のためにデータセット全体と実装の詳細を公開する。




