AIのハルシネーションはランダムではない——予測可能な仕組み：2026年のケーススタディ

Dev.to / 2026/4/18

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

この記事は、LLMのハルシネーションはランダムではなく、知識カットオフ後の質問によって引き起こされる予測可能な失敗モードだと主張しています。
2026年のケーススタディとして、ウェブ検索なしで、3社のモデル（ChatGPT、Claude、Gemini）に対し2026年3月の企業買収について要約させた結果を報告し、Claudeは拒否した一方でChatGPTとGeminiはもっともらしいが捏造された詳細を生成したと述べています。
著者は、ハルシネーションの深刻度が知識ギャップの大きさと明確に相関しており、ギャップが長いほど自信たっぷりで筋の通った物語や、より具体的な作り話が増えることを見いだしています。
実務上の教訓として、モデルが「最近の出来事」について自信ありげに答えるほど、その内容は厳しめにファクトチェックすべきだとしています。

私の知り合いのほとんどの開発者は、AIのハルシネーションを謎のバグのように扱っています――何かがランダムに、予測不能に起きるものだと。

違います。これは、予測可能な引き金を持つ、完全に機械的な失敗です。

以下は、2026年にChatGPT、Claude、Geminiで40回以上の構造化テストを実行して見つけたことです。

理解しておくべき中核の仕組み

すべてのLLMには知識のカットオフ（knowledge cutoff）があります――学習データが凍結された確定した日付です。主要な3モデルの現在の日時は以下のとおりです：

Gemini（base）： 2025年1月
ChatGPT（GPT-4.5/5クラス）： 2025年8月
Claude（3.5/4クラス）： 2025年8月

その日付より後の出来事は、モデルの記憶に存在しません。ゼロ。曖昧な境界ではなく、二値です。

問題は：モデルが「ギャップ」を持っているようには振る舞わないことです。実データがあるかどうかに関係なく、流暢で自信に満ちた文章を生成します。

実際に私がテストしたこと

私は、2026年3月の検証済みの現実の出来事――エンタープライズ向けの技術系買収――を1つ取り上げ、Web検索を無効にした状態で、3モデルすべてに要約させました。

Claude： きれいに拒否しました。正確な回答は「2025年8月上旬以降の出来事に関する情報がありません。この買収を確認または要約することはできません。」です。

ChatGPT： 拒否しませんでした。3段落の要約を生成し、カットオフ以前の実在する業界の噂に、カットオフ以降の成り行きを推測して混ぜていました。注意深くない読者なら、事実だと思ってしまうでしょう。

Gemini： 最も危険な出力でした。失われた文脈が14か月分あるにもかかわらず、完全な物語を生成しました――$4.2Bの取引価額を捏造し、CEOの発言を作り、架空のEUの規制上のハードルを描写し、存在しない独占禁止法担当のコミッショナーの名前まで挙げました。~400語。完璧なAPスタイル。完全にフィクション。

私が別の場所では見かけていないパターン

40回以上の構造化テストの後に気づいたことがあります。ハルシネーションの重大さは、データギャップの大きさに比例して増大するという点です。

カットオフから1〜2か月後： 躊躇した回答、軽い捏造、見抜きやすい
カットオフから3〜6か月後： 中程度の確信、微妙な誤りが実情報に混ざる
カットオフから6か月超後： 完全な物語、高い確信、具体的な捏造ディテール、権威的な口調

実務上の意味合いはこうです：最近の出来事に関する質問に、より自信を持って回答するほど、より強くファクトチェックすべきです。 確信度と正確性は、カットオフ以降の問いでは逆相関の関係にあります。

障害リスクが最も高い4つのカテゴリ

SaaS、フィンテック、eコマースのクライアントに対する制作（プロダクション）での作業に基づくと、捕捉されたハルシネーションの~80%は次の4カテゴリに収まります：

固有名詞――人物、企業、組織
具体的な日付――任命日、発表日、提出日
財務数値――取引価額、市場規模、売上高の数値
URL――実在しそうに見える捏造された参照リンク

すべての編集ワークフローには、これら4つに対する明示的なチェックが必要です。

実践的な検証ワークフロー

これは、私たちのチームが公開前のAI支援記事すべてで実行している手順です：

あらゆる主張の日時を確認する――出来事の日付がモデルのカットオフ以降である場合、出力の読み取り上の自信度に関係なく、人手による検証のためにフラグを立てる
出典をリクエストではなく注入する――実際のソース素材をプロンプトに貼り付け、「次のテキストのみに基づいて…」という形で使い、モデルにソースを見つけるよう依頼しない
モデル間の相互検証――1つのモデルが拒否し、別のモデルが確信に満ちた詳細を提示している場合、確信のある回答を疑わしいものとして扱う
4カテゴリのスポットチェック――固有名詞、日付、財務数値、URLについて、すべて人間による必須のレビューを行う

なぜ特にGeminiは別の問題なのか

Geminiの2025年1月のカットオフは、現在から15か月以上遅れています。Googleはそれを補うために、Geminiのデフォルト挙動にライブのGoogle Searchによるグラウンディングを組み込みました。これは役に立ちますが、精度の問題の所在を学習データから「現在Google上で上位表示されているもの」に移してしまいます。

競合が、古い価格情報のSEO最適化ブログ記事で特定のクエリに対して検索結果1位を取っている場合、Geminiはそれを事実として繰り返します。

SEOへの含意： つまり、あなたのコンテンツはライブのAI回答システムの学習材料になってしまいました。あなたのコンテンツに含まれる事実誤りは、大規模なAI生成の回答が何千件も生成される規模で増幅されます。

両方のテストシナリオを含む完全なケーススタディ、完全な検証ワークフロー、そしてハルシネーション重大度のパターン分析：

AI Knowledge Cutoff vs Hallucination: Case Study 2026 →

Originally published on StackNova