要旨: 検証可能な報酬による強化学習(RLVR)は、視覚言語モデル(VLMs)の推論能力を大きく前進させてきました。しかし、VLMは本質的にテキスト優位であるため、視覚トークンへの注意の活性化が乏しいことによって特徴づけられる、視覚的な忠実性の不足がしばしば生じます。さらに重要なのは、経験的分析により、推論ステップに沿った時間的な視覚の忘却がこの欠陥を悪化させることが明らかになった点です。そこで、このギャップを埋めるために、方策最適化中に視覚的な焦点を強化するための新しい枠組みであるVisually-Guided Policy Optimization(VGPO)を提案します。具体的には、VGPOはまず、視覚の類似性を活用して視覚的手がかりを位置特定し増幅するVisual Attention Compensation(視覚注意補償)メカニズムを導入し、同時に後半のステップで視覚的な期待値を段階的に高めることで、視覚の忘却に対抗します。このメカニズムに基づき、デュアルグレインドのアドバンテージ再重み付け戦略を実装します。すなわち、軌跡内(intra-trajectory)レベルでは相対的に高い視覚活性を示すトークンを強調し、軌跡間(inter-trajectory)レベルでは視覚的な蓄積がより優れていることを示す軌跡を優先します。大規模な実験により、VGPOはより良い視覚活性と、数学的なマルチモーダル推論および視覚依存型タスクにおける優れた性能を達成することが示されています。
マルチモーダル推論のための視覚誘導型ポリシー最適化
arXiv cs.CL / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、検証可能な報酬を用いる現行の強化学習(RLVR)が持つ重要な制約を、視覚言語モデルの観点から明らかにする。具体的には、テキスト中心の学習によって視覚の忠実性が弱くなり、視覚トークンへの注意が疎になりがちである。
- さらに、推論ステップをまたいだ「時間的な視覚の忘却(temporal visual forgetting)」がこの問題を悪化させ、後半ステップでの視覚的な根拠付け(visual grounding)の信頼性が低下することを示す。
- 著者らは、視覚的類似度に基づくVisual Attention Compensation(視覚注意補償)を用いるVisually-Guided Policy Optimization(VGPO)を提案し、視覚的手掛かりの局所化と増幅をより適切に行う。
- VGPOはまた、視覚の忘却を緩和するために、推論の後半ステップに向けて視覚への期待を段階的に高める。
- 実験の結果、視覚活性(visual activation)が改善し、数学的なマルチモーダル推論やその他の視覚に依存するタスクにおいて性能が向上したことが報告されている。




