自分の声に合わせる:LVLMにおける幻覚の抑制のための自己修正型嗜好学習

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、大規模視覚言語モデル(LVLM)がしばしば起こす幻覚の問題を扱い、嗜好学習ベースの手法がプロプライエタリなモデルで嗜好データセットを作ることにより分布の不一致が生じ、効率的なアラインメントを妨げると主張しています。
  • 提案手法はAVES-DPO(Alignment via VErified Self-correction DPO)で、外部のプロプライエタリシステムに頼る代わりに、モデル自身の内在的な知識から得たin-distributionデータを用いてLVLMをアラインメントします。
  • AVES-DPOはコンセンサスベースの検証メカニズムにより多様な幻覚タイプを診断し、その結果を手がかりにモデルに自己修正を促す形で学習します。
  • 嗜好ペアをモデル内部の分布に厳密に適合するよう生成することで、幻覚抑制の効果と効率が向上します。
  • 実験では、AVES-DPOが既存ベースラインを上回り、必要サンプル数が5.2kと報告されており、高いサンプル効率が示されています。