Where to Lookの先へ：マルチモーダルRLVRのための軌跡誘導強化学習

arXiv cs.CV / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルLLMにおけるRLVRの重要な制限として、モデルが関連する視覚領域に注意を向けられる一方で、推論過程で視覚的根拠を適切に活用できないことが多い点を指摘する。
強力なモデルから得られる専門家の推論軌跡を用いて方策を微細で視覚に根ざした推論へと導く、軌跡誘導強化学習（TGRL）を提案する。
本手法には、強化学習の最適化を安定化し改善するためのトークンレベルの再重み付けと、軌跡のフィルタリングが含まれる。
複数のマルチモーダル推論ベンチマークにおける実験により、TGRLが一貫して推論性能を向上させ、視覚認識と論理推論の断絶を低減することが示される。

要旨: 多モーダル大規模言語モデル（MLLMs）に対する検証可能な報酬による強化学習（RLVR）の最近の進歩は、主に最終回答の正確性の向上と、視覚的グラウンディングの強化に焦点を当ててきました。しかし、重要なボトルネックが依然として残っています。すなわち、モデルは関連する視覚領域に注意を向けることはできるものの、その視覚的証拠を後続の推論に効果的に組み込めないことが多く、結果として視覚的事実に弱くしか根拠づけられていない推論連鎖になってしまうのです。この問題に対処するために、より強力なモデルから得られる専門家の推論トラジェクトリを用いて、方策モデルが微細な推論プロセスへ視覚的証拠を統合するよう導く軌跡誘導型強化学習（TGRL）を提案します。さらに、トークン単位での再重み付けとトラジェクトリのフィルタリングを導入し、安定的かつ効果的な方策最適化を保証します。複数の多モーダル推論ベンチマークにおける大規模な実験の結果、TGRLは一貫して推論性能を向上させ、視覚認識と論理的推論の間のギャップを効果的に埋めることが示されました。