OpenAI論文が暴いたハルシネーションの正体

note / 3/14/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Read original →

共有:

Key Points

OpenAIの論文はハルシネーションの原因と挙動を具体的に解明したと報じられ、モデル出力の信頼性向上を狙う新知見を提示。- 出力の誤情報がデータ分布と推論プロセスの相互作用に起因する可能性があると説明され、改善策の方向性が示唆されている。- 実務面では評価指標や検証手法の見直し、信頼性の高い出力を確保するためのワークフローの強化が検討される。- 産業界と学術界で安全性・透明性の規範形成に影響を与える議論が活発化すると見られる。

OpenAI論文が暴いたハルシネーションの正体

とある地方都市の某外科医

2026年3月13日 12:00

以前、「AIが『わからない』と言えない理由〜医師との決定的な違い〜」という記事を書きました。

あれからおよそ半年。OpenAI自身がこの問題を正面から分析した論文を発表しました。"Why Language Models Hallucinate"（なぜ言語モデルはハルシネーションを起こすのか）。2025年9月公開、arXiv 2509.04664です。

Why Language Models Hallucinate Like students facing hard exam questions, large language mode arxiv.org

読んでみて率直に思ったのは、「半分当たっていて、半分違っていた」ということでした。

今回はこの論文を軸に、前回の記事をアップデートします。

前回の記事で書いたこと

前回の要点はこうでした。

AIは確率分布で次の単語を予測する仕組みだから、構造的に「知らない」と言えない。ゼロ確率という概念が存在しないので、どんな質問にも何らかの答えを生成してしまう。一方、医師は「原因不明」「経過観察」と言える。この違いがハルシネーションの根本原因である。

大筋は間違っていなかったと思います。ただ、OpenAIの論文を読んで、問題はもう少し別のところにありました。

自分のことすら正しく答えられない

論文の冒頭に、印象的なエピソードがあります。

第一著者のAdam Kalai氏（OpenAI研究員）が、AIに自分自身について質問した。「Adam Kalaiの博士論文のタイトルは？」。正解は"Probabilistic and on-line methods in machine learning"（2001年、カーネギーメロン大学）です。

ChatGPT（GPT-4o）は「Boosting, Online Algorithms, and Other Topics in Machine Learning」と答えた。年も大学も微妙に違う。DeepSeekは「Algebraic Methods in Interactive Machine Learning……ハーバード大学、2005年」。Llamaは「Efficient Algorithms for Learning and Playing Games……MIT、2007年」。3つのAIが、3つとも不正解でした。

誕生日も聞いてみた。3回試して、3回とも違う日付が返ってきた。正解は秋だと論文に書かれていますが、返答は「3月7日」「6月15日」「1月1日」。

論文の著者自身の情報すら正しく答えられない。ここから論文は、その原因の分析に入ります。

「言えない」のではなく「言うと損する」

前回、私は「AIの構造的限界」として「知らない」が言えないと書きました。

論文が示したのは、もっとシンプルで、もっと厄介な事実です。

AIは「知らない」と言う能力自体は持てます。OpenAIのgpt-5-thinking-miniというモデルは、SimpleQAというテストで質問の52%に対し「十分な確信がないので回答しません」と棄権するよう設計されています。エラー率は26%。一方、従来のo4-miniが棄権するのはわずか1%で、エラー率は75%にのぼります。

では、なぜほとんどのAIは「知らない」と言わないのか。

言うと点数が下がるからです。

試験の採点が嘘を報酬にしている

論文の最も衝撃的な指摘はここにあります。

AIの性能を測る主要なベンチマーク（テスト）を10個分析したところ、9個が「わからない」という回答に一切の得点を与えていませんでした。GPQA、MMLU-Pro、MATH、SWE-benchなど、業界で最も影響力のあるテストがほぼ全て、棄権＝最低評価です。唯一の例外であるWildBenchですら、棄権はハルシネーションを含む回答より低く評価される設計になっています。

論文はこれを数学的に示しています。正解に1点、不正解に0点、棄権にも0点という採点方式では、どんな状況でも棄権は最適戦略にならない。知らなくても推測した方が期待値が高い。

つまり、AIは永遠に「テスト受験モード」にいるのです。

研修医がカンファレンスで指導医に質問されたとき、「わかりません」と言えない。知識がないからではありません。言うと評価が下がると思っているからです。AIもまったく同じ構造の中にいます。

賢くなるほど嘘が増えるパラドックス

論文に先立ち、OpenAIは2025年4月に自社モデルのハルシネーション率を公開しています。人物に関する事実確認テスト（PersonQA）での結果です。

o1（2024年モデル）：ハルシネーション率約16%
o3（2025年モデル）：約33%
o4-mini（2025年モデル）：約48%

新しいモデルほど、嘘の割合が増えています。

直感に反するようですが、論文を読むと納得できます。新しい推論特化モデルは、より多くの質問に「何らかの回答」を出そうとします。棄権率が下がる分、正解も増えるけれど、不正解も増える。テストの採点が「正答数」で競わせるから、たくさん答えた方が有利になるわけです。

これも医師の成長過程に似ています。研修医は「わかりません」と言える。知識の限界を自覚しているからです。ところが中堅になると、「知らないかもしれない領域」の認識がかえって難しくなる。自分の専門外の疾患に対して、中途半端な知識で判断してしまうリスクが生まれます。

AIでは、この問題が構造的に増幅されています。

OpenAIだけの問題なのか

興味深いのは、この「答えすぎ」傾向がOpenAIモデルに偏っている可能性です。

第三者の分析によれば、OpenAIの最新モデルは他社と比較して棄権率が極端に低く、その分ハルシネーション率が高い。一方、AnthropicのClaudeやGoogleのGeminiは比較的慎重で、不確実な質問には回答を控える傾向があり、結果としてハルシネーションが少ないとされています。

企業によって「どこまで答えるか」の設計思想が違う。リーダーボードの順位を取りに行くか、信頼性を優先するか。その判断が、ユーザーが受け取る「嘘の量」を左右しています。

ただし、これをもって特定のAIが安全とは言えません。ベンチマークの種類やテスト条件によって結果は大きく変わります。慎重に棄権するモデルは、裏を返せば「役に立たない」と評価されるリスクもある。

検索すれば解決するのか

もう一つ、論文とは別の文脈で注目すべきデータがあります。

OpenAIのGPT-4oにWeb検索機能を付けたところ、SimpleQAでの正答率が90%に達しました。検索なしのモデルと比べて劇的な改善です。

「わからないことは調べる」。人間にとって当たり前のこの行動を、AIにも組み込めばハルシネーションは大幅に減る。これはRAG（検索拡張生成）と呼ばれる手法で、すでに多くのAIサービスに実装されています。

ただし、検索で拾えるのは「ネット上に正確な情報が存在する質問」に限られます。曖昧な質問、答えが一つに定まらない質問、そもそも情報が公開されていない領域には効きません。先のKalai氏の誕生日のように、ネット上にも情報がほとんどない事実には無力です。

検索は強力な補助策ですが、根本的な解決にはなりません。

医学教育はこの問題をすでに解いていた

論文が提案する解決策を読んで、既視感がありました。

論文の提言はこうです。ベンチマークの採点方法を改革せよ。不正解にペナルティを課し、棄権に部分点を与えよ。インドのJEE試験やかつてのアメリカのSATのように、「当てずっぽうを罰する」仕組みにせよ。

これ、医学教育がとっくにやっていることです。

かつてのマークシート試験は、AIのベンチマークと同じ問題を抱えていました。当てずっぽうでも正解すれば点になる。しかし現在の医学教育では、OSCE（客観的臨床能力試験）や口頭試問において、「鑑別疾患を挙げたうえで"現時点では判断できない"と言える」ことが評価されます。

「わからない」が正解になる試験を、医学教育はすでに実装しています。

論文が提案しているのは、AIの世界にもこれと同じ改革を持ち込むことに他なりません。

動脈瘤の経過観察、再び

前回の記事で動脈瘤の経過観察の話を書きました。サイズが小さければ定期観察、大きくなれば手術、形が変われば緊急手術。一見「何もしない」ように見えて、緻密な戦略に基づいた積極的管理です。

この比喩は、論文を読んだ後でも有効だと思っています。

AIが「この質問には十分な確信を持って答えられません」と言い、そのうえで「以下の情報源をご確認ください」と返す。これは性能の低下ではなく、信頼性の向上です。

「現時点では手術適応ではない。3ヶ月後に再評価」が無能の表明ではないように、AIの「確信度が不十分なので回答を控えます」も、本来は高い能力の証であるべきです。

ただし現在のベンチマークは、この判断に0点をつけます。

ハルシネーションは消えるのか

論文の結論を正確に言えば、こうなります。

ハルシネーションには消せるものと消せないものがある。

消せないもの。訓練データにパターンとして存在しない低頻度の事実です。たとえばマイナーな人物の誕生日のように、規則性がなく訓練データに1回しか出てこないような情報は、どれだけモデルを巨大にしても正確に学習できません。これは数学的に証明された下限であり、原理的に消えません。

消せるもの。評価体系のインセンティブ歪みによる「自信過剰な推測」です。 ベンチマークの採点方法を改革し、棄権を正当に評価すれば、AIは「知らない」と言えるようになる。gpt-5-thinking-miniは、すでにそれを実証しています。

問題は、後者の改革が進まないことです。リーダーボードの順位が企業の評判と直結している以上、「うちのモデルは半分の質問に答えません」とは言いにくい。たとえそれが誠実な設計であっても。

前回の訂正と、これからの付き合い方

前回「ゼロ確率が存在しないから嘘をつく」と書きましたが、より正確には「規則性のない事実は統計的に学習不可能だから間違える」です。確率の問題というより、データにパターンがない情報を正解と不正解に分類できないという、より根本的な問題でした。

「構造的に"知らない"と言えない」も修正が必要です。構造的に不可能なのではなく、現在の評価体系が「知らない」を罰しているから言わない。能力の欠如ではなく、インセンティブの歪みです。

ただし、結論は変わりません。

現状のAIは「知らない」と言いません。理由が「言えないから」であろうと「言うと損するから」であろうと、ユーザーにとっての実害は同じです。AIの回答には常にファクトチェックが必要であり、専門外の領域では特に注意が必要です。

変わったのは、希望が見えたことかもしれません。

「構造的に不可能」なら諦めるしかない。でも「インセンティブの問題」であれば改革の余地がある。医学教育がOSCEで変わったように、AIの評価体系もいつか変わるかもしれません。

そのときAIは、ようやく「わかりません。専門家にご相談ください」と言える、信頼できるパートナーになれるのだと思います。

LLMとハルシネーション ―基礎と対策― amzn.to

3,564円 (2025年09月14日 09:45時点詳しくはこちら)

Amazon.co.jpで購入する

生成AI・30の論点　2025-2026 (日本経済新聞出版) amzn.to

2,156円 (2025年09月14日 09:45時点詳しくはこちら)

Amazon.co.jpで購入する

読んでいただきありがとうございました。
コメント、記事購入、チップ等いつもありがとうございます。
大変感謝しております。
関連記事もありますので、下記サイトマップを参照していただければ幸いです。

ダウンロード

copy

いいなと思ったら応援しよう！

よろしければ応援お願いします！チップはnote更新用のPC購入費用に当てる予定です。よろしく！

チップで応援する

What 81,000 people want from AI

Anthropic News

ラピダス、半導体設計AIエージェント「国内2社海外1社が使用中」

日経XTECH

「AIで雇用は増える」「AIの進化はツールがけん引」、5つのAI潮流を解説

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

Superposition and the Capsule: Quantum State Collapse Meets AI Identity

Dev.to

OpenAI論文が暴いたハルシネーションの正体

Key Points

OpenAI論文が暴いたハルシネーションの正体

前回の記事で書いたこと

自分のことすら正しく答えられない

「言えない」のではなく「言うと損する」

試験の採点が嘘を報酬にしている

賢くなるほど嘘が増えるパラドックス

OpenAIだけの問題なのか

検索すれば解決するのか

医学教育はこの問題をすでに解いていた

動脈瘤の経過観察、再び

ハルシネーションは消えるのか

前回の訂正と、これからの付き合い方

いいなと思ったら応援しよう！