生成AIのハルシネーションは「誤出力」? 条件付き分布・真理条件・接地から見る数理的整理
Zenn / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 生成AIの「ハルシネーション」を、単なる誤りではなく“誤出力”として数理的に位置づける枠組みを提示する。
- 条件付き分布・真理条件(どの条件で正しいと言えるか)を分解して、誤出力が生じるメカニズムを整理している。
- 「接地(grounding)」の観点から、モデルの出力が現実・事実に結びつく/結びつかないことが誤出力の性質に影響することを説明する。
- 従来の説明(もっともらしさ等)を超えて、出力の確率過程と“正しさ”の定義を対応づけることで、現象理解を精密化する狙いがある。
!
TL;DR
LLM は本質的に、入力 x に対して出力列 y の条件付き分布
q_\theta(y\mid x)
を近似している。ここで最適化されているのは「真実」ではなく「尤もらしい続き」である。したがって、ハルシネーションは単純な故障ではない。概念的には、
H(x) = \{\,y \mid q_\theta(y\mid x)\ \text{is high},\ T_W(y)=0 \,\}
のように、モデル内部では高尤度だが、世界 W に対しては偽である出力集合として捉えられる。この意味で、ハルシネーションは、実装バグでもなければ、単純な故障でもない。次トークン予測という...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →広告
