MIRL:相互情報量ガイド付き強化学習によるビジョン・ランゲージ・モデル
arXiv cs.CV / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- ビジョン・ランゲージ・モデルは、複雑な推論タスクで視覚認識の誤りや幻覚が起きやすく、回答精度を低下させます。
- 既存のRLVR手法には、失敗しがちな軌道にサンプリング予算が浪費されること、そして疎な報酬では失敗が「視覚」起因か「推論」起因かを判別できないこと、という2つの重要な制約があります。
- 提案手法のMIRLは、生成した説明文と視覚入力の間の相互情報量(MI)を低コストの事前スクリーニング指標として用い、サンプリング予算を高い見込みの軌道に振り向けます。
- さらにMIRLはデカップル学習により、視覚認識最適化のためのMIベース報酬を別途与えることで、「報酬盲目(reward blindness)」を緩和します。
- 6つのビジョン・ランゲージ推論ベンチマークで、MIRLは平均精度70.22%を達成し、16本の全軌道サンプリングを行うベースラインを、10本の事前サンプル+上位6選択(完全軌道を25%削減)で上回ります。




