公平に見て、真実を語る:公平な注意配分が視覚言語アラインメントのグラウンディングを改善し、幻覚を減らす

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多モーダルLLMにおける物体の幻覚の因果的な要因を、デコーディング中の不公平な注意(注意配分)として特定する。そこでは、稀少・小型・周辺の物体が、必要なグラウンディング情報を十分に受け取れない。
  • 重み更新を伴わない学習不要(training-free)、かつアーキテクチャ非依存のデコーディング戦略として、DOP-OBCを提案する。これは、Dominant Object Penalty(DOP)とOutlier Boost Coefficient(OBC)の2つの機構により、より公平な注意を強制する。
  • DOPとOBCは、因果注意マスク内での行ごとのロジット(logit)変調として実装し、重み更新を避けつつ、自己回帰的デコーディングの挙動を維持する。
  • 画像および動画のMLLMにまたがる実験により、CHAIRおよびPOPEベンチマークで一貫して幻覚が減少すること、ならびに複数の評価軸でGPT-4oのキャプション品質が向上することが示される。
  • 本研究は、注意配分における「公平性」を、理論上の設計原則にとどまらず、視覚言語生成の忠実性(faithfulness)を実務的に改善する手法として位置づける。

要旨: マルチモーダル大規模言語モデル(MLLMs)は、しばしば視覚入力に存在しない物体を幻覚として生成します。これは多くの場合、デコード中の注意(attention)が、視覚的に目立つ、または頻出する内容に過度に引き寄せられるためです。本研究では、この注意配分の不均衡が物体幻覚の根本原因であることを観察します。すなわち、まれな小さな物体、あるいは文脈上周辺的な物体に十分な注意が向けられないと、モデルは生成を全体の視覚シーンに適切に基づけ(ground)られなくなります。我々は、画像中のあらゆる物体は、そのサイズ、頻度、視覚的な目立ちやすさに関わらず、デコード中に等しい表象(representational)の機会を受けるべきだと主張します。そこで本研究では、均等な注意という原理に基づく、学習不要(training-free)かつアーキテクチャ非依存(architecture-agnostic)のデコード戦略であるDOP-OBCを提案します。2つの相補的な「物体に着目した」信号が同時に機能します。第一に、支配的物体ペナルティ(Dominant Object Penalty: DOP)により、視覚的に支配的な領域への注意の過集中をソフトに抑制します。第二に、外れ値ブースト係数(Outlier Boost Coefficient: OBC)によって、まれである一方で確信をもって検出された物体へ向けた注意を増幅します。これらの信号は因果注意マスク内で行ごとの(per-row)ロジット変調として注入されます。これにより重み更新は不要であり、自己回帰的デコードの性質を保持します。画像および動画のMLLMに対する大規模な実験では、CHAIRおよびPOPEベンチマークにおける物体幻覚の一貫した低減が示されます。さらに、GPT-4oで評価したキャプション品質においても、正確性、一貫性、詳細、文脈、時間的次元の各観点で改善が確認されます。DOP-OBCは、注意配分の公平性が単なる設計原則ではなく、より忠実なマルチモーダル生成への実用的で効果的な道筋であることを示しています。

公平に見て、真実を語る:公平な注意配分が視覚言語アラインメントのグラウンディングを改善し、幻覚を減らす | AI Navigate