概要: マルチモーダル大型言語モデル(MLLMs)の最近の進歩により、マルチターン推論の間に視覚ツールを能動的に呼び出すことで「画像で考える」ことを行うモデルが促されてきました。一般的な強化学習(RL)の実践では、結果に基づく報酬に依存することが多いのですが、これには、テキスト上のもっともらしさがしばしば実行上の失敗を隠してしまうという事実が無視されています。そのため、モデルはエージェント的推論の軌跡の中で、曖昧であったり無関係な視覚的行動を実行している一方で、直感的なテキスト推論を示すことがあります。この推論と行動の不一致は、マルチターン推論プロセス全体を通じて蓄積するノイズを生み、モデルのマルチモーダル推論能力を著しく低下させ、学習の崩壊(training collapse)につながる可能性があります。本論文では、Multimodal Agentic Policy Optimization(MAPO)を導入し、モデルが生成するMultimodal Chain-of-Thought(MCoT)におけるテキスト上の推論と、視覚的行動との間のギャップを埋めます。具体的に、MAPOは、ツール使用によって得られた視覚コンテンツに対して、モデルに明示的なテキスト記述を生成させることを義務付けます。次に、この記述と実際の観測との意味的整合性をタスク報酬と結びつける、独自のアドバンテージ推定を用います。MAPOの妥当性の根拠を正当化するための理論的な知見を提示します。MAPOは本質的に勾配の分散を低減し、広範な実験により、本手法が複数の視覚推論ベンチマークにおいて優れた性能を達成することを示します。
Walk the Talk:画像による推論のためのマルチモーダル・エージェント的方策最適化で、推論と行動のギャップを埋める
arXiv cs.CV / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルなエージェント的推論に対する既存の強化学習(RL)訓練が、「推論—行動ギャップ」を生みうると主張する。具体的には、モデルがツールを用いて不正確または無関係な視覚行動を取っている場合でも、テキストがもっともらしく見えることがある。
- そこで、Multimodal Agentic Policy Optimization(MAPO)を提案する。これは、Multimodal Chain-of-Thought(MCoT)中にツール利用によって得られる視覚観測について、モデルが明示的なテキスト記述を生成することを強制する。
- MAPOは新しい優位度推定(advantage estimation)手法を用い、生成された記述と実際の観測の意味的整合性、およびタスク報酬を同時に考慮することで、多段(マルチターン)の軌跡におけるノイズの多いフィードバックを低減する。
- 著者らは、MAPOが勾配の分散を低減する理論的な根拠を示し、複数の視覚推論ベンチマークで経験的な改善を報告している。
- 全体として本研究は、蓄積したノイズによる性能劣化や、マルチモーダルなエージェント的設定で起こりうる訓練崩壊といった、訓練安定性に関する懸念への対処を目的としている。




