ProMMSearchAgent:プロセス指向の報酬で学習した、汎用的マルチモーダル検索エージェント
arXiv cs.CV / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、極端にまばらな教師信号とライブWeb環境の不確実性という課題に対処するため、プロセス指向の報酬で学習するマルチモーダル検索エージェント「ProMMSearchAgent」を提案している。
- 方針学習を、決定論的なローカル静的サンドボックスに切り分けることで、ライブWeb上で直接学習する場合よりも学習の安定性を高めている。
- エージェント自身の知識限界を内省的に探ることで、正しい認知判断や、視覚的・事実的に不確かである場合にマルチモーダル検索またはテキスト検索を開始すべきタイミングを明示的に報いる仕組みを導入している。
- 実験では、Google Search APIへのライブ転用に対してゼロショットでの転移が示され、複数ベンチマークで新たな最先端性能を達成した。
- 具体的には、FVQA-testで+5.1%、InfoSeekで+6.3%、MMSearchで+11.3%の改善が報告され、知識集約型の視覚推論に対する汎化力の高さが示されている。
