長期ホライズンのエージェンティックなマルチモーダル探索に向けて

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、LMM-Searcherという長期ホライズンのマルチモーダル深層探索フレームワークを提案し、軽量なUIDで参照される視覚アセットをファイルベースで保存することで、マルチモーダルのコンテキスト爆発とトークンコストを削減する。
  • 活動中の知覚(active perception)で必要に応じて視覚コンテンツを読み込むための、専用のfetch-imageツールを導入し、多数ターンにわたる段階的かつ省メモリなマルチモーダル検索を可能にする。
  • 著者らは、複雑なクロスモーダルのマルチホップ推論を要するクエリを作るデータ合成パイプラインを構築し、12Kの軌跡を蒸留して、Qwen3-VL-Thinking-30A3Bを長期ホライズン探索エージェント向けに微調整する。
  • 4つのベンチマークに対する実験により、この手法が探索ホライズン100ターンまでスケールし、MM-BrowseCompやMMSearch-Plusといった課題でオープンソースモデルの中では最先端の結果を達成し、さらにベースモデル間での良好な汎化性を示す。
  • 著者らは、コードを提示されたGitHubリポジトリのリンク先で公開する予定であることを示している。

要旨: マルチモーダルなディープ検索エージェントは、反復的にテキストおよび視覚的な証拠を収集することで、複雑なタスクを解決する大きな可能性を示してきました。しかし、長いホライズンにわたってマルチモーダル入力に伴う異種情報の管理や高いトークンコストを抑えることは、依然として重要な課題です。既存手法はしばしば、文脈の爆発(context explosion)や、重要な視覚信号の喪失に悩まされます。そこで本研究では、ファイルベースの視覚表現メカニズムを中心とした、新しい長ホライズン・マルチモーダル・ディープ検索フレームワーク Long-horizon MultiModal deep search(LMM-Searcher)を提案します。視覚アセットを外部のファイルシステムに退避し、それらを軽量なテキスト識別子(UID)にマッピングすることで、本手法は文脈のオーバーヘッドを軽減しつつ、将来の参照のためにマルチモーダル情報を保持します。さらに、能動的な知覚のために、段階的で必要に応じた視覚の読み込み(on-demand visual loading)を可能にする、専用の fetch-image ツールをエージェントに搭載します。加えて、複雑なクロスモーダルなマルチホップ推論を要求するクエリを生成するためのデータ合成パイプラインを導入します。このパイプラインを用いて、Qwen3-VL-Thinking-30A3B を微調整するための高品質な 12K の軌跡(trajectory)を蒸留し、専門のマルチモーダル・ディープ検索エージェントを構築します。4つのベンチマークにわたる大規模な実験の結果、提案手法は 100 ターンの検索ホライズンまで適切にスケールし、MM-BrowseComp や MMSearch-Plus のような困難な長ホライズン・ベンチマークにおいて、オープンソースモデルの中で最先端の性能を達成しました。さらに、異なる基盤モデル間でも強い汎化性が示されました。コードは https://github.com/RUCAIBox/LMM-Searcher で公開予定です。