ProMMSearchAgent：プロセス指向の報酬で学習した、汎用的マルチモーダル検索エージェント

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、極端にまばらな教師信号とライブWeb環境の不確実性という課題に対処するため、プロセス指向の報酬で学習するマルチモーダル検索エージェント「ProMMSearchAgent」を提案している。
方針学習を、決定論的なローカル静的サンドボックスに切り分けることで、ライブWeb上で直接学習する場合よりも学習の安定性を高めている。
エージェント自身の知識限界を内省的に探ることで、正しい認知判断や、視覚的・事実的に不確かである場合にマルチモーダル検索またはテキスト検索を開始すべきタイミングを明示的に報いる仕組みを導入している。
実験では、Google Search APIへのライブ転用に対してゼロショットでの転移が示され、複数ベンチマークで新たな最先端性能を達成した。
具体的には、FVQA-testで+5.1%、InfoSeekで+6.3%、MMSearchで+11.3%の改善が報告され、知識集約型の視覚推論に対する汎化力の高さが示されている。

Abstract

Training multimodal agents via reinforcement learning for knowledge-intensive visual reasoning is fundamentally hindered by the extreme sparsity of outcome-based supervision and the unpredictability of live web environments. To resolve these algorithmic and environmental bottlenecks, we introduce ProMMSearchAgent, establishing a novel Sim-to-Real training paradigm for multimodal search. We decouple policy learning into a deterministic, local static sandbox. Crucially, to learn effectively within this constrained environment, we propose an introspective process-oriented reward. By probing the agent's own parametric knowledge boundaries, we generate dense behavioral metadata that explicitly rewards the correct cognitive decision, initiating a multimodal or text search only when visually or factually uncertain. Extensive experiments demonstrate that our locally-trained policy transfers zero-shot to the live Google Search API. ProMMSearchAgent achieves new SOTA performance, outperforming MMSearch-R1 by +5.1% on FVQA-test, +6.3% on InfoSeek, and +11.3% on MMSearch.

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

日経XTECH

大手テック企業がAI投資と統合を加速する一方、規制当局と企業は安全性と責任ある導入に注力

Dev.to

格子ベースのプランに条件付けられた未知環境における軌跡予測

Dev.to

なぜAIゲートウェイを使うのか？

Dev.to

OpenAIが「Workspace Agents（ワークスペース・エージェント）」と命名。6か月前にリリースしたLark版をオープンソースした件

Dev.to

ProMMSearchAgent：プロセス指向の報酬で学習した、汎用的マルチモーダル検索エージェント

要点

Abstract

関連記事

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

大手テック企業がAI投資と統合を加速する一方、規制当局と企業は安全性と責任ある導入に注力

格子ベースのプランに条件付けられた未知環境における軌跡予測

なぜAIゲートウェイを使うのか？

OpenAIが「Workspace Agents（ワークスペース・エージェント）」と命名。6か月前にリリースしたLark版をオープンソースした件

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer