ハルシネーションとは
LLM が事実と違うことを、いかにも本当のように生成する現象。たとえば「実在しない論文を引用」「存在しない API 関数を出力」「歴史的事実を捏造」。流暢で説得力があるため、人間が騙されやすいのが特徴です。
なぜ起こるか:5 つの原因
1. 次単語予測の本質
LLM は「これまでの文脈から次に来そうな単語」を予測しているだけで、「真実かどうか」を直接学習していません。もっともらしい言葉の連鎖が生成される。
2. 学習データの偏り・古さ
カットオフ時点までの情報しか持たない。最新ニュースには答えられず、もっともらしい嘘で埋めることがある。
3. 知識の境界
「マイナーな話題」「ニッチな分野」では学習データが薄く、推測で補完されます。
4. 文脈不足
プロンプトが曖昧だと、LLM が勝手に補完。「Aさんの家族構成は?」と聞かれて、誰の A か明確でないとデタラメな回答が返ることも。
5. 圧縮損失
LLM は学習データを「重みベクトル」として圧縮しているため、細部の正確な再現は困難。「だいたい合っている」近似応答が生成される。


