私の知り合いのほとんどの開発者は、AIのハルシネーションを謎のバグのように扱っています――何かがランダムに、予測不能に起きるものだと。
違います。これは、予測可能な引き金を持つ、完全に機械的な失敗です。
以下は、2026年にChatGPT、Claude、Geminiで40回以上の構造化テストを実行して見つけたことです。
理解しておくべき中核の仕組み
すべてのLLMには知識のカットオフ(knowledge cutoff)があります――学習データが凍結された確定した日付です。主要な3モデルの現在の日時は以下のとおりです:
- Gemini(base): 2025年1月
- ChatGPT(GPT-4.5/5クラス): 2025年8月
- Claude(3.5/4クラス): 2025年8月
その日付より後の出来事は、モデルの記憶に存在しません。ゼロ。曖昧な境界ではなく、二値です。
問題は:モデルが「ギャップ」を持っているようには振る舞わないことです。実データがあるかどうかに関係なく、流暢で自信に満ちた文章を生成します。
実際に私がテストしたこと
私は、2026年3月の検証済みの現実の出来事――エンタープライズ向けの技術系買収――を1つ取り上げ、Web検索を無効にした状態で、3モデルすべてに要約させました。
Claude: きれいに拒否しました。正確な回答は「2025年8月上旬以降の出来事に関する情報がありません。この買収を確認または要約することはできません。」です。
ChatGPT: 拒否しませんでした。3段落の要約を生成し、カットオフ以前の実在する業界の噂に、カットオフ以降の成り行きを推測して混ぜていました。注意深くない読者なら、事実だと思ってしまうでしょう。
Gemini: 最も危険な出力でした。失われた文脈が14か月分あるにもかかわらず、完全な物語を生成しました――$4.2Bの取引価額を捏造し、CEOの発言を作り、架空のEUの規制上のハードルを描写し、存在しない独占禁止法担当のコミッショナーの名前まで挙げました。~400語。完璧なAPスタイル。完全にフィクション。
私が別の場所では見かけていないパターン
40回以上の構造化テストの後に気づいたことがあります。ハルシネーションの重大さは、データギャップの大きさに比例して増大するという点です。
- カットオフから1〜2か月後: 躊躇した回答、軽い捏造、見抜きやすい
- カットオフから3〜6か月後: 中程度の確信、微妙な誤りが実情報に混ざる
- カットオフから6か月超後: 完全な物語、高い確信、具体的な捏造ディテール、権威的な口調
実務上の意味合いはこうです:最近の出来事に関する質問に、より自信を持って回答するほど、より強くファクトチェックすべきです。 確信度と正確性は、カットオフ以降の問いでは逆相関の関係にあります。
障害リスクが最も高い4つのカテゴリ
SaaS、フィンテック、eコマースのクライアントに対する制作(プロダクション)での作業に基づくと、捕捉されたハルシネーションの~80%は次の4カテゴリに収まります:
- 固有名詞――人物、企業、組織
- 具体的な日付――任命日、発表日、提出日
- 財務数値――取引価額、市場規模、売上高の数値
- URL――実在しそうに見える捏造された参照リンク
すべての編集ワークフローには、これら4つに対する明示的なチェックが必要です。
実践的な検証ワークフロー
これは、私たちのチームが公開前のAI支援記事すべてで実行している手順です:
- あらゆる主張の日時を確認する――出来事の日付がモデルのカットオフ以降である場合、出力の読み取り上の自信度に関係なく、人手による検証のためにフラグを立てる
- 出典をリクエストではなく注入する――実際のソース素材をプロンプトに貼り付け、「次のテキストのみに基づいて…」という形で使い、モデルにソースを見つけるよう依頼しない
- モデル間の相互検証――1つのモデルが拒否し、別のモデルが確信に満ちた詳細を提示している場合、確信のある回答を疑わしいものとして扱う
- 4カテゴリのスポットチェック――固有名詞、日付、財務数値、URLについて、すべて人間による必須のレビューを行う
なぜ特にGeminiは別の問題なのか
Geminiの2025年1月のカットオフは、現在から15か月以上遅れています。Googleはそれを補うために、Geminiのデフォルト挙動にライブのGoogle Searchによるグラウンディングを組み込みました。これは役に立ちますが、精度の問題の所在を学習データから「現在Google上で上位表示されているもの」に移してしまいます。
競合が、古い価格情報のSEO最適化ブログ記事で特定のクエリに対して検索結果1位を取っている場合、Geminiはそれを事実として繰り返します。
SEOへの含意: つまり、あなたのコンテンツはライブのAI回答システムの学習材料になってしまいました。あなたのコンテンツに含まれる事実誤りは、大規模なAI生成の回答が何千件も生成される規模で増幅されます。
両方のテストシナリオを含む完全なケーススタディ、完全な検証ワークフロー、そしてハルシネーション重大度のパターン分析:
AI Knowledge Cutoff vs Hallucination: Case Study 2026 →
Originally published on StackNova




