今すぐ実行：適応的コンテキスト統合によるLVLM幻覚の先回り抑制

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模視覚言語モデル（LVLM）がしばしば深刻な幻覚を生成することを強調し、静的で単一ステップのコンテキスト処理に基づく従来の対策では、生成状態が動的に変化する状況に対して不十分であると主張している。
生成中の復号（デコーディング）過程で文脈的信号を適応的に統合し、幻覚を先回りして抑止するトレーニング不要の推論手法「ACT（Adaptive Context Integration）」を提案する。
ACTは、「視覚コンテキスト探索」を、時空間プロファイリングにより視覚探索に結び付く注意ヘッドを増幅することで行い、さらに「意味コンテキスト統合」により意味クエリを周辺化して、視覚エビデンスとの整合をより良くする。
複数のLVLMに対する実験では、ACTが幻覚を大幅に低減しつつ、識別ベンチマークおよび生成ベンチマークの双方で競争力のある性能を維持することが報告されている。
本手法は、追加学習を必要とせず、基盤モデルの中核となる生成挙動を損なわないため、堅牢で適応的であると位置付けられている。

要旨: 大規模ビジョン・言語モデル（LVLMs）はしばしば深刻なハルシネーション（幻覚）問題に悩まされます。既存の抑制戦略は主に、視覚への焦点を強める、または強い言語的事前知識を抑制するために、孤立した単一ステップの状態に依存しています。しかし、これらの静的アプローチは生成プロセス全体にわたる動的な文脈変化を無視しており、継承された情報損失を修正するのにも苦労します。この制限に対処するため、我々は、文脈情報を適応的に統合することでハルシネーションを軽減する、学習不要の推論介入手法である Adaptive Context inTegration（ACT）を提案します。具体的には、まず視覚文脈探索を提案します。これは、時空間プロファイリングを活用して、視覚探索に責任を持つ注意ヘッドを適応的に増幅します。さらに、視覚と語と意味の整合を促進するために、潜在的な意味クエリを周縁化するセマンティック文脈集約を提案し、視覚的証拠を効果的に集約できるようにします。これにより、トークン予測が離散的であることに起因する情報損失を解決します。多様なLVLMに対する大規模な実験の結果、ACTはハルシネーションを大幅に低減し、判別ベンチマークおよび生成ベンチマークの両方で競争力のある結果を達成することが示されました。さらに、基本的な生成能力を損なうことなく、頑健で非常に適応的な解決策として機能します。