要旨: エージェント型マルチモーダルモデルは、外部ツールを活用して複雑なタスクに取り組める能力により、大きな注目を集めている。しかし、そのようなエージェントはしばしば、主に2つの理由によって早期の対話崩壊に陥ることが観察される: 1) 終端報酬がしばしば最後のトークンに付与されるため、探索的な振る舞いを含む軌跡とそうでない軌跡とを、優位性が識別できない; 2) 過度に冗長な文脈が、エージェントが有用なフィードバックを吸収することを妨げる。これらの問題に対処するため、構造的な近接性を利用して、バッチ全体におけるロールアウト軌跡全体から優位性シグナルを導出する枠組みであるDeepening Reasoning MMSearchAgentを提案する。これにより、同じ正解を含んでいても、異なる長さの軌跡がさらに生成されることが促される。加えて、異なるガウス報酬を用いて対話許容度を動的に調整し、それにより情報の信頼性を確保し、冗長性を低減する。多ターンの対話学習を支えるため、少なくとも3つの推論ステップを含む3602件の高品質QAペアから成る、多段階のディープ推論データセットを構築した。大規模な広範な実験の結果、我々の手法は最先端の性能を達成しており、FVQA-testにおいてMMSearch-R1を8.4\%上回ることが示された。
DR-MMSearchAgent:マルチモーダル検索エージェントにおける推論の深化
arXiv cs.CV / 2026/4/22
📰 ニュースModels & Research
要点
- 本論文は、エージェント型マルチモーダル検索モデルで観測される「早すぎるインタラクション崩壊」の主因として、終端トークンに付与される報酬信号と、冗長なコンテキストによる有用なフィードバックの学習阻害を挙げています。
- DR-MMSearchAgentは、バッチ全体におけるロールアウト軌跡を構造的近さで対応付け、軌跡全体からアドバンテージ信号を導出することで、正解が同じでも異なる長さの軌跡を生成しやすくする枠組みです。
- さらに、情報の信頼性を高めつつ冗長性を抑えることを目的に、分化したガウス報酬によってインタラクション許容度を動的に校正します。
- 多ターンの深い推論を学習するため、少なくとも3ステップの推論を必要とする高品質QAペア3,602件からなるマルチステップ・データセットを構築しました。
- 実験ではSOTA性能が報告されており、FVQA-testでMMSearch-R1に対して8.4%上回る結果が示されています。


