OpenAI論文が暴いたハルシネーションの正体
以前、「AIが『わからない』と言えない理由〜医師との決定的な違い〜」という記事を書きました。
あれからおよそ半年。OpenAI自身がこの問題を正面から分析した論文を発表しました。"Why Language Models Hallucinate"(なぜ言語モデルはハルシネーションを起こすのか)。2025年9月公開、arXiv 2509.04664です。
読んでみて率直に思ったのは、「半分当たっていて、半分違っていた」ということでした。
今回はこの論文を軸に、前回の記事をアップデートします。
前回の記事で書いたこと
前回の要点はこうでした。
AIは確率分布で次の単語を予測する仕組みだから、構造的に「知らない」と言えない。ゼロ確率という概念が存在しないので、どんな質問にも何らかの答えを生成してしまう。一方、医師は「原因不明」「経過観察」と言える。この違いがハルシネーションの根本原因である。
大筋は間違っていなかったと思います。ただ、OpenAIの論文を読んで、問題はもう少し別のところにありました。
自分のことすら正しく答えられない
論文の冒頭に、印象的なエピソードがあります。
第一著者のAdam Kalai氏(OpenAI研究員)が、AIに自分自身について質問した。「Adam Kalaiの博士論文のタイトルは?」。正解は"Probabilistic and on-line methods in machine learning"(2001年、カーネギーメロン大学)です。
ChatGPT(GPT-4o)は「Boosting, Online Algorithms, and Other Topics in Machine Learning」と答えた。年も大学も微妙に違う。DeepSeekは「Algebraic Methods in Interactive Machine Learning……ハーバード大学、2005年」。Llamaは「Efficient Algorithms for Learning and Playing Games……MIT、2007年」。3つのAIが、3つとも不正解でした。
誕生日も聞いてみた。3回試して、3回とも違う日付が返ってきた。正解は秋だと論文に書かれていますが、返答は「3月7日」「6月15日」「1月1日」。
論文の著者自身の情報すら正しく答えられない。ここから論文は、その原因の分析に入ります。
「言えない」のではなく「言うと損する」
前回、私は「AIの構造的限界」として「知らない」が言えないと書きました。
論文が示したのは、もっとシンプルで、もっと厄介な事実です。
AIは「知らない」と言う能力自体は持てます。OpenAIのgpt-5-thinking-miniというモデルは、SimpleQAというテストで質問の52%に対し「十分な確信がないので回答しません」と棄権するよう設計されています。エラー率は26%。一方、従来のo4-miniが棄権するのはわずか1%で、エラー率は75%にのぼります。
では、なぜほとんどのAIは「知らない」と言わないのか。
言うと点数が下がるからです。
試験の採点が嘘を報酬にしている
論文の最も衝撃的な指摘はここにあります。
AIの性能を測る主要なベンチマーク(テスト)を10個分析したところ、9個が「わからない」という回答に一切の得点を与えていませんでした。GPQA、MMLU-Pro、MATH、SWE-benchなど、業界で最も影響力のあるテストがほぼ全て、棄権=最低評価です。唯一の例外であるWildBenchですら、棄権はハルシネーションを含む回答より低く評価される設計になっています。
論文はこれを数学的に示しています。正解に1点、不正解に0点、棄権にも0点という採点方式では、どんな状況でも棄権は最適戦略にならない。知らなくても推測した方が期待値が高い。
つまり、AIは永遠に「テスト受験モード」にいるのです。
研修医がカンファレンスで指導医に質問されたとき、「わかりません」と言えない。知識がないからではありません。言うと評価が下がると思っているからです。AIもまったく同じ構造の中にいます。
賢くなるほど嘘が増えるパラドックス
論文に先立ち、OpenAIは2025年4月に自社モデルのハルシネーション率を公開しています。人物に関する事実確認テスト(PersonQA)での結果です。
o1(2024年モデル):ハルシネーション率 約16%
o3(2025年モデル):約33%
o4-mini(2025年モデル):約48%
新しいモデルほど、嘘の割合が増えています。
直感に反するようですが、論文を読むと納得できます。新しい推論特化モデルは、より多くの質問に「何らかの回答」を出そうとします。棄権率が下がる分、正解も増えるけれど、不正解も増える。テストの採点が「正答数」で競わせるから、たくさん答えた方が有利になるわけです。
これも医師の成長過程に似ています。研修医は「わかりません」と言える。知識の限界を自覚しているからです。ところが中堅になると、「知らないかもしれない領域」の認識がかえって難しくなる。自分の専門外の疾患に対して、中途半端な知識で判断してしまうリスクが生まれます。
AIでは、この問題が構造的に増幅されています。
OpenAIだけの問題なのか
興味深いのは、この「答えすぎ」傾向がOpenAIモデルに偏っている可能性です。
第三者の分析によれば、OpenAIの最新モデルは他社と比較して棄権率が極端に低く、その分ハルシネーション率が高い。一方、AnthropicのClaudeやGoogleのGeminiは比較的慎重で、不確実な質問には回答を控える傾向があり、結果としてハルシネーションが少ないとされています。
企業によって「どこまで答えるか」の設計思想が違う。リーダーボードの順位を取りに行くか、信頼性を優先するか。その判断が、ユーザーが受け取る「嘘の量」を左右しています。
ただし、これをもって特定のAIが安全とは言えません。ベンチマークの種類やテスト条件によって結果は大きく変わります。慎重に棄権するモデルは、裏を返せば「役に立たない」と評価されるリスクもある。
検索すれば解決するのか
もう一つ、論文とは別の文脈で注目すべきデータがあります。
OpenAIのGPT-4oにWeb検索機能を付けたところ、SimpleQAでの正答率が90%に達しました。検索なしのモデルと比べて劇的な改善です。
「わからないことは調べる」。人間にとって当たり前のこの行動を、AIにも組み込めばハルシネーションは大幅に減る。これはRAG(検索拡張生成)と呼ばれる手法で、すでに多くのAIサービスに実装されています。
ただし、検索で拾えるのは「ネット上に正確な情報が存在する質問」に限られます。曖昧な質問、答えが一つに定まらない質問、そもそも情報が公開されていない領域には効きません。先のKalai氏の誕生日のように、ネット上にも情報がほとんどない事実には無力です。
検索は強力な補助策ですが、根本的な解決にはなりません。
医学教育はこの問題をすでに解いていた
論文が提案する解決策を読んで、既視感がありました。
論文の提言はこうです。ベンチマークの採点方法を改革せよ。不正解にペナルティを課し、棄権に部分点を与えよ。インドのJEE試験やかつてのアメリカのSATのように、「当てずっぽうを罰する」仕組みにせよ。
これ、医学教育がとっくにやっていることです。
かつてのマークシート試験は、AIのベンチマークと同じ問題を抱えていました。当てずっぽうでも正解すれば点になる。しかし現在の医学教育では、OSCE(客観的臨床能力試験)や口頭試問において、「鑑別疾患を挙げたうえで"現時点では判断できない"と言える」ことが評価されます。
「わからない」が正解になる試験を、医学教育はすでに実装しています。
論文が提案しているのは、AIの世界にもこれと同じ改革を持ち込むことに他なりません。
動脈瘤の経過観察、再び
前回の記事で動脈瘤の経過観察の話を書きました。サイズが小さければ定期観察、大きくなれば手術、形が変われば緊急手術。一見「何もしない」ように見えて、緻密な戦略に基づいた積極的管理です。
この比喩は、論文を読んだ後でも有効だと思っています。
AIが「この質問には十分な確信を持って答えられません」と言い、そのうえで「以下の情報源をご確認ください」と返す。これは性能の低下ではなく、信頼性の向上です。
「現時点では手術適応ではない。3ヶ月後に再評価」が無能の表明ではないように、AIの「確信度が不十分なので回答を控えます」も、本来は高い能力の証であるべきです。
ただし現在のベンチマークは、この判断に0点をつけます。
ハルシネーションは消えるのか
論文の結論を正確に言えば、こうなります。
ハルシネーションには消せるものと消せないものがある。
消せないもの。訓練データにパターンとして存在しない低頻度の事実です。たとえばマイナーな人物の誕生日のように、規則性がなく訓練データに1回しか出てこないような情報は、どれだけモデルを巨大にしても正確に学習できません。これは数学的に証明された下限であり、原理的に消えません。
消せるもの。評価体系のインセンティブ歪みによる「自信過剰な推測」です。 ベンチマークの採点方法を改革し、棄権を正当に評価すれば、AIは「知らない」と言えるようになる。gpt-5-thinking-miniは、すでにそれを実証しています。
問題は、後者の改革が進まないことです。リーダーボードの順位が企業の評判と直結している以上、「うちのモデルは半分の質問に答えません」とは言いにくい。たとえそれが誠実な設計であっても。
前回の訂正と、これからの付き合い方
前回「ゼロ確率が存在しないから嘘をつく」と書きましたが、より正確には「規則性のない事実は統計的に学習不可能だから間違える」です。確率の問題というより、データにパターンがない情報を正解と不正解に分類できないという、より根本的な問題でした。
「構造的に"知らない"と言えない」も修正が必要です。構造的に不可能なのではなく、現在の評価体系が「知らない」を罰しているから言わない。能力の欠如ではなく、インセンティブの歪みです。
ただし、結論は変わりません。
現状のAIは「知らない」と言いません。理由が「言えないから」であろうと「言うと損するから」であろうと、ユーザーにとっての実害は同じです。AIの回答には常にファクトチェックが必要であり、専門外の領域では特に注意が必要です。
変わったのは、希望が見えたことかもしれません。
「構造的に不可能」なら諦めるしかない。でも「インセンティブの問題」であれば改革の余地がある。医学教育がOSCEで変わったように、AIの評価体系もいつか変わるかもしれません。
そのときAIは、ようやく「わかりません。専門家にご相談ください」と言える、信頼できるパートナーになれるのだと思います。
読んでいただきありがとうございました。
コメント、記事購入、チップ等いつもありがとうございます。
大変感謝しております。
関連記事もありますので、下記サイトマップを参照していただければ幸いです。
いいなと思ったら応援しよう!
よろしければ応援お願いします!チップはnote更新用のPC購入費用に当てる予定です。よろしく!




