MIRL：相互情報量ガイド付き強化学習によるビジョン・ランゲージ・モデル

arXiv cs.CV / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

ビジョン・ランゲージ・モデルは、複雑な推論タスクで視覚認識の誤りや幻覚が起きやすく、回答精度を低下させます。
既存のRLVR手法には、失敗しがちな軌道にサンプリング予算が浪費されること、そして疎な報酬では失敗が「視覚」起因か「推論」起因かを判別できないこと、という2つの重要な制約があります。
提案手法のMIRLは、生成した説明文と視覚入力の間の相互情報量（MI）を低コストの事前スクリーニング指標として用い、サンプリング予算を高い見込みの軌道に振り向けます。
さらにMIRLはデカップル学習により、視覚認識最適化のためのMIベース報酬を別途与えることで、「報酬盲目（reward blindness）」を緩和します。
6つのビジョン・ランゲージ推論ベンチマークで、MIRLは平均精度70.22%を達成し、16本の全軌道サンプリングを行うベースラインを、10本の事前サンプル＋上位6選択（完全軌道を25%削減）で上回ります。