広告

大規模視覚言語モデルにおける幻覚認識型の中間表現編集

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模視覚言語モデルにおける幻覚(ハルシネーション)に取り組み、モデル出力が視覚上の事実と矛盾するケースに焦点を当てる。
  • 幻覚認識型の中間表現編集フレームワークを提案し、幻覚に相当する表現を動的に検出したうえで、幻覚を排除する編集を適用する。
  • 再学習ベースの対策と比べて重い学習コストを回避することを目指し、コントラスト・デコーディングと比べて二重推論によるオーバーヘッドを回避することを狙う。
  • 実験では、既存ベンチマークに対して最小限の追加計算で最先端の結果を報告し、幻覚に対する頑健性と強い制御性を示す。
  • 著者らは、再現性と実運用での採用を支援するため、リンクされたGitHubリポジトリを通じて実装コードを提供している。

広告