複数検定に基づく大規模言語モデルにおける幻覚(ハルシネーション)検出の原理的手法

arXiv cs.CL / 2026/4/29

💬 オピニオンModels & Research

要点

  • この論文は、大規模言語モデルにおける幻覚検出を仮説検定問題として定式化し、機械学習における分布外検出の考え方と結び付けています。
  • 複数の検出器スコアリングルールを、適合(コンフォーマル)p値によって集約する「複数検定に着想を得た手法」を提案しています。
  • この手法は、誤警報(偽陽性)の率を制御することで、キャリブレーションされた幻覚検出を目指しています。
  • 多様なモデルとデータセットに対する大規模な実験により、最先端の幻覚検出手法に対して頑健であることが示されています。
  • 実運用上の重要な課題として、どの経験的スコアリングルールを信頼すべきかを原理的に判断できる点を重視しています。

Abstract

大規模言語モデル(LLM)は、多様なタスクを解決するための強力な基盤モデルとして登場してきましたが、幻覚(hallucinations)を起こしやすいことも示されています。すなわち、自信ありげに聞こえるものの、実際には誤っている、あるいは全くもって意味をなさない応答を生成してしまうのです。既存の幻覚検出器は幅広い経験的スコアリング規則を提案していますが、その性能はモデルやデータセットによって異なり、実運用でどれに依拠すべきか、あるいは信頼できる検出器として扱うべきかを判断するのは困難です。本研究では、幻覚の検出問題を仮説検定の問題として定式化し、機械学習モデルにおける分布外(out-of-distribution)検出の問題との類似点を示します。さらに、複数の評価スコアを、共形(conformal)p値を用いて系統的に集約する、複数検定に着想を得た手法を提案し、誤報率を制御しつつ較正された検出を可能にします。多様なモデルおよびデータセットにまたがる大規模な実験により、本手法が最先端の手法に対して頑健であることが検証されます。