拡散モデルにおける幻覚（ハルシネーション）の早期検出

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

テキストから画像を生成する拡散モデルは、複数の対象物を生成するときに特定の実体が抜け落ちることがあり、その結果として幻覚（ハルシネーション）が起きやすい。
本論文ではHEaD+（Hallucination Early Detection +）を提案し、クロスアテンションマップとテキスト情報に加えて「Predicted Final Image」を入力として用いることで、生成の途中で誤りを早期に検出し、継続するか別シードで再開するかを判断する。
HEaD+は、新たに作成したInsideGenデータセット（生成画像45,000枚、最大7オブジェクトを含むプロンプト）で学習されており、多対象シーン向けの検出を可能にする。
実験では、HEaD+により4オブジェクトのプロンプトで「指定されたすべての被写体を正しく表現できる」完全生成の確率が6〜8%向上し、完全性を重視した場合には生成時間を最大32%短縮できることが示される。
さらに、統合ローカリゼーション（位置推定）モジュールとして中間ステップで物体の重心を予測し、（ユーザが要求した場合は）ペア間の空間関係を検証して、物体の存在と生成をゲートすることで関係整合性を高める。