ハルシネーションはなぜ起こるか:原理と緩和策

AI Navigate Original / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage
共有:

要点

  • ハルシネーション:嘘を本当のように生成、流暢さで騙される
  • 5 原因:次単語予測・古いデータ・知識境界・文脈・圧縮損失
  • RAG(最有効)・Tool Use・CoT・多数決・人間レビューで緩和
  • 完全には消えず、リスク許容度に応じ仕組み化する

ハルシネーションとは、AI が事実と違うことを、いかにも本当らしく書いてしまう現象です。実在しない論文を引用する、存在しない関数を解説する、起きていない出来事を語る——しかも文章は流暢で自信ありげなので、人は気づかずに信じてしまいます。本稿では「なぜ起こるのか」をモデルの仕組みから説明し、その上で「どう減らすか」を実務の手順として整理します。

Under the Hood

01原理:AI は「真実」ではなく「もっともらしさ」を選んでいる

大規模言語モデル(LLM)の動作は、煎じ詰めると「これまでの文章の続きとして、次に来る確率が最も高い単語」を一語ずつ選ぶことです。学習しているのは言葉の並びの統計であって、「それが真実かどうか」ではありません。つまりモデルが最大化しているのはもっともらしさ(plausibility)であって、真実(truth)ではない——ここがすべての出発点です。

では、もっともらしさを追うと、なぜ正しい答えも出れば嘘も出るのか。鍵は根拠が文脈に十分あるかどうかです。質問が明確で、答えを支える事実がモデルの中にしっかりある場合、「もっともらしい続き」と「真実」は一致します。しかし質問が曖昧だったり、学習データに薄い話題だったりすると、両者がずれ、モデルは「それらしく聞こえる作り話」で空白を埋めます。同じ予測の仕組みが、根拠の有無で正解にも捏造にも分岐するのです。

次単語予測 もっともらしさを最大化 ? 根拠は十分か あり なし/曖昧 事実に沿う回答 もっともらしい捏造 明確・根拠ありの質問 =もっともらしさと真実が一致 未知・曖昧・分布外の質問 =真実から離れても言い切る

FIG.1 同じ予測エンジンが、根拠の有無という一点で「事実」と「捏造」に分岐する

02原因を 5 つに分解する

原理(もっともらしさの最大化)を出発点にすると、現場で見るハルシネーションは次の 5 つに整理できます。

01

真偽を直接学んでいない

次単語予測は「正しいか」ではなく「自然か」を学ぶ。流暢さと正確さは別物なので、滑らかな文章ほど誤りが紛れても気づきにくい。

02

知識の鮮度と網羅性の限界

学習はある時点(カットオフ)で止まる。最新の出来事や、ニッチで学習量の薄い話題では、空白を推測で埋めてしまう。

03

圧縮による細部の劣化

膨大な文章を限られたパラメータに圧縮しているため、固有名詞・数値・引用といった細部は「だいたい合っている」近似に化けやすい。

04

曖昧なプロンプトの過剰補完

「Aさんの経歴は?」のように対象が一意に定まらないと、モデルは確認せず、それらしい設定を勝手に補って答えてしまう。

05

「言い切る」よう仕向ける評価設計

続きを読むには無料登録が必要です

アカウントを作成すると、オリジナル記事の全文をお読みいただけます。