V-Reflection:受動的な観察者から能動的な尋問者へ——MLLMを変革する

arXiv cs.CV / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在のマルチモーダル大規模言語モデル(MLLM)が微細な知覚タスクにおいて幻覚を起こしやすいのは、推論中に視覚的な証拠を能動的に見直すのではなく、画像を静的なコンテキストとして扱っているためだと主張している。
  • 「考えてから見る(think-then-look)」という枠組みV-Reflectionを提案し、潜在的な推論状態を動的なプローブへと変換して、各推論ステップで視覚特徴空間を尋問し、グラウンディングを行う。
  • V-Reflectionは2段階の蒸留アプローチを用いる。Box-Guided Compression(BCM)で、安定した空間的にグラウンディングされたピクセルから潜在ターゲットへの対応を学習し、Dynamic Autoregressive Compression(DAC)で、隠れ状態を大域的な視覚特徴マップ上での動的プローブへと変換する。
  • この手法は、微細な知覚ギャップを大幅に縮めることで、知覚集約型の6つのベンチマークにおいて性能を向上させると報告されており、可視化により潜在的な推論がタスクに重要な証拠を局所化することが示される。
  • 推論時には蒸留モジュールの両方を非アクティブに保ち、効率的なエンドツーエンドの自己回帰的な潜在デコーディングを維持することを目指している。

Abstract

多モーダル・大規模言語モデル(MLLMs)は目覚ましい成功を収めてきましたが、それでも微細なタスクにおいては知覚に関連する幻覚(hallucination)を起こしやすいという課題があります。この脆弱性は根本的な制約に起因します。すなわち、推論が主として言語領域に制限され、視覚入力を、動的な参加者として扱うのではなく、静的で推論非依存の前置きとして扱ってしまう点です。その結果、現在のモデルは受動的な観察者のように振る舞い、変化し続ける推論状態を根拠付けるために視覚的な細部を再検討できません。これを克服するために、我々は V-Reflection を提案します。これは「think-then-look(考えてから見る)」という視覚的リフレクション機構を通じて、MLLM を能動的な問い合わせ者へ変換する枠組みです。推論の間、潜在状態は動的なプローブとして機能し、視覚特徴空間を能動的に問い直すことで、タスクにとって重要な証拠に基づいて各推論ステップを根拠付けます。我々の手法は二段階の蒸留戦略を採用しています。まず、Box-Guided Compression(BCM)モジュールが、明示的な空間的グラウンディングにより、安定したピクセルから潜在への目標を確立します。次に、Dynamic Autoregressive Compression(DAC)モジュールが、モデルの隠れ状態を動的プローブへ写像し、そのプローブがグローバルな視覚特徴マップを問い直します。BCM 教師の空間的な専門性を DAC 学習者へ蒸留することで、V-Reflection はタスクにとって重要な証拠を局在化する能力を内部化します。推論時には、両モジュールはいずれも完全に非アクティブのままであり、潜在空間における最適な効率を備えた純粋なエンドツーエンドの自己回帰デコーディングを維持します。広範な実験により、V-Reflection が知覚負荷の高い 6 つのベンチマークにおいて有効であることが示され、微細な知覚ギャップを大幅に縮小します。可視化は、潜在の推論が自律的にタスクにとって重要な視覚的証拠を局在化することを確認します。