V-Reflection:受動的な観察者から能動的な尋問者へ——MLLMを変革する
arXiv cs.CV / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在のマルチモーダル大規模言語モデル(MLLM)が微細な知覚タスクにおいて幻覚を起こしやすいのは、推論中に視覚的な証拠を能動的に見直すのではなく、画像を静的なコンテキストとして扱っているためだと主張している。
- 「考えてから見る(think-then-look)」という枠組みV-Reflectionを提案し、潜在的な推論状態を動的なプローブへと変換して、各推論ステップで視覚特徴空間を尋問し、グラウンディングを行う。
- V-Reflectionは2段階の蒸留アプローチを用いる。Box-Guided Compression(BCM)で、安定した空間的にグラウンディングされたピクセルから潜在ターゲットへの対応を学習し、Dynamic Autoregressive Compression(DAC)で、隠れ状態を大域的な視覚特徴マップ上での動的プローブへと変換する。
- この手法は、微細な知覚ギャップを大幅に縮めることで、知覚集約型の6つのベンチマークにおいて性能を向上させると報告されており、可視化により潜在的な推論がタスクに重要な証拠を局所化することが示される。
- 推論時には蒸留モジュールの両方を非アクティブに保ち、効率的なエンドツーエンドの自己回帰的な潜在デコーディングを維持することを目指している。




