AI Navigate

1つのトークン、2つの運命:視覚トークン操作によるMLLMの幻覚に対抗する統合フレームワーク

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、MLLMの幻覚を減らすための既存のトレーニング不要手法を批判し、視覚を改善するだけでは性能を損ない、言語 priors を抑制するだけでもノイズが増えると指摘します。
  • 視覚トークンに焦点を当てた統一フレームワークを提案し、Synergistic Visual Calibration (SVC) と Causal Representation Calibration (CRC) の2つの潜在表現モジュールを核としています。
  • SVC は拡張された視覚トークンを用いて視覚表現を強化し、CRC は剪定されたトークンを使って潜在空間のネガティブサンプルを作成し、内部モデルのバイアスを補正します。
  • このアプローチは視覚と言語のバランスを回復し、複数のベンチマークで LLaVA-1.5 における POPE の絶対改善を約 2 ポイント達成し、推論レイテンシのオーバーヘッドは約 1.06 倍に留まります。
要旨: 現在のトレーニング不要の手法は、MLLMの幻覚に対処するために、視覚信号を強化する戦略とテキストの慣性を抑制する戦略を別々に用います。しかし、これらの別々の手法は重要なトレードオフのため不十分です。視覚を単に強化するだけでは強力な言語先行に対抗できず、言語を抑制すると画像に関係のないノイズが追加されることがあります。さらに、それらの素朴な組み合わせは効果的でないことも分かり、統一フレームワークが必要です。我々はこのようなフレームワークを、コア資産である視覚トークンに焦点を当てることによって提案します。我々の設計は2つの重要な洞察を活用します:(1) 拡張された画像は補完的な視覚意味を提供する、(2) 視覚トークンを削除する(情報ギャップ)は、画像を歪ませる(モダリティギャップ)よりも幻覚傾向をより正確に分離します。これらに基づき、フレームワークは潜在表現の上で2つの異なるやり方で視覚トークンを使用します。Synergistic Visual Calibration (SVC) モジュールは拡張されたトークンを取り入れて視覚表現を強化します。一方、Causal Representation Calibration (CRC) モジュールは剪定されたトークンを用いて潜在空間のネガティブサンプルを作成し、内部モデルのバイアスを修正します。2つの役割を調和させることで、フレームワークは視覚と言語のバランスを効果的に回復し、物体幻覚を大幅に減少させ、LLaVA-1.5 の複数のベンチマークにおける POPE の精度を平均約2ポイント絶対値改善し、推論レイテンシのオーバーヘッドはわずか 1.06 倍に留まります。