AI Navigate

AIの学習データが枯渇する〜古本を切り刻む企業と、モデル崩壊の足音〜

note / 3/15/2026

💬 OpinionSignals & Early TrendsIdeas & Deep Analysis

Key Points

  • AIの学習データが枯渇するリスクが高まっており、モデルの性能や汎用性に影響を及ぼす可能性が指摘されている。
  • 古本など既存データを切り刻んで活用する企業の動きが、データ源の多様性・著作権・品質の課題を浮き彫りにしている。
  • データ供給の不安定さがモデルの信頼性や長期的な運用に影響を与える「モデル崩壊の足音」として業界に警鐘を鳴らしている。
  • 解決策としてデータ共有の枠組み、合成データの活用、ライセンス整備、データ取得戦略の見直しが検討されている。
見出し画像

AIの学習データが枯渇する〜古本を切り刻む企業と、モデル崩壊の足音〜

92

2026年3月4日、OpenAIがGPT-5.3 Instantをリリースしました。日本語の不自然さを改善し、ハルシネーションを30%低減したという。AIはまた少し賢くなった。

ように見える。

その裏で、AIの学習基盤が揺らぎ始めています。


データが足りない

AIの大規模言語モデルは、人間が書いた大量のテキストを読み込んで育ちます。書籍、論文、ニュース記事、Webコンテンツ。質の高い文章を食べるほど賢くなる。

AI研究機関Epoch AIの予測では、高品質なテキストデータは2026年頃に枯渇します。低品質なデータを含めても2030〜2050年には底をつく。人類が数千年かけて蓄積した言葉の総量は、有限です。当たり前の話ですが、AIの開発競争はその当たり前を無視して走ってきた。

「もっとデータを食わせれば賢くなる」というスケーリング則。それが壁にぶつかりつつある。

日本語はさらに深刻です。英語のテキストデータと比べて、日本語は圧倒的に少ない。GPT-5.3 Instantが日本語の改善に力を入れた背景にも、この事情があるはずです。改善の余地が大きいのではなく、学習に使える日本語データの余裕が小さい。英語より先に壁が来る可能性がある。


背表紙を切り刻む

データの枯渇が迫る中、AI企業が何をしているか。

2026年1月、Washington Postが報じた内容は衝撃的でした。Claudeの開発元Anthropicが「プロジェクト・パナマ」という極秘計画を実行していた。社内文書にこうあります。

「世界中のすべての書籍を破壊的にスキャンする取り組みである」
「この取り組みを行っていることを知られたくない」

やったことはこうです。中古書籍販売業者から数百万冊の本を一括購入。油圧裁断機で背表紙を切断。高速スキャナーでページを読み取り、デジタル化。原本はすべてリサイクル業者へ。費用は数千万ドル。

なぜ物理的な古本か。「ファーストセール・ドクトリン」——購入した書籍は破壊を含め自由に扱える——という法的原則を使うためです。出版社とのライセンス交渉を回避しつつ、プロの手で編集された高品質テキストを合法的に手に入れる。そういう算段でした。

ただ、それ以前はもっと荒っぽかった。Anthropicの共同創業者が海賊版ライブラリ「LibGen」から書籍を大量ダウンロードしていた事実が裁判で明らかになっています。

Anthropicだけではありません。Metaの社員は「会社のノートPCでトレントを使うのは、どうにも正しいとは思えない」と社内で懸念を表明しつつ、CEOザッカーバーグの承認を経てLibGenを利用していた。OpenAIもダウンロードの事実を認めています。

Anthropicの和解金は15億ドル。約2,200億円です。

壊す企業と、保存する企業

対照的な動きもあります。

2025年6月、OpenAIとMicrosoftがハーバード大学図書館と提携を発表しました。パブリックドメインの書籍約100万冊を合法的にデジタル化するプロジェクトです。15世紀に遡る書籍も含まれる。デジタル化される一方で、原本も保存される。

ハーバードが600年前の写本を慎重に保管している一方で、Anthropicは数百万冊の背表紙を裁断機にかけた。同じ「AIに学習させるための書籍デジタル化」でも、やり方がまるで違う。

ただ、どちらにも共通しているのは「それほどまでに高品質な学習データに飢えている」という事実です。

古本も有限です。人類がこれまでに出版した書籍の総数は推定1億3,000万冊。スキャンし尽くしたら、次はどうするのか。


モデル崩壊

学習データが枯渇する一方で、Web上にはAI生成コンテンツが増え続けています。

ここで起きるのが「モデル崩壊(Model Collapse)」です。

2023年、Nature誌に掲載された研究がこの現象を示しました。AIが生成したデータをAIが学習し続けると、出力の品質は世代を重ねるごとに劣化する。

コピー機でコピーのコピーを取り続ける。100回繰り返せば、文字は潰れて読めなくなる。AIでも同じことが起きます。情報の多様性が失われ、偏りは増幅され、最終的に「それっぽいだけの中身のない文章」が量産される。

厄介なのは、このループがすでに回り始めていることです。

Web上に大量のAI生成コンテンツが投稿される。AI企業が次世代モデルの学習データをインターネットから収集するとき、そこにはAIが書いた文章が大量に混ざっている。それを学習したモデルがまた文章を生成し、Webに投稿される。

コピーのコピーのコピー。もう回っている。

医療情報という地雷原

この問題が深刻になる領域があります。医療です。

健康や病気について検索したとき、AI生成の医療記事がすでに大量にヒットする。その中には不正確な情報が混ざっている。問題はその先です。次世代のAIがそれを学習データとして取り込む。不正確な医療情報で学習したAIが、さらに不正確な医療情報を生成する。

臨床判断支援ツールにAIを組み込む動きは加速しています。もしそのAIの学習データが汚染されていたら。症状の判定、薬の相互作用チェック、画像診断の補助。どれも「だいたい合っている」では済まない領域です。

モデル崩壊が創作の世界で起きれば文化の停滞。医療の世界で起きれば、人の命に関わる。


カクヨムで起きたこと

学術論文の中だけの話ではありません。

2025年11月、Web小説サイト「カクヨム」が異例の注意喚起を出しました。「過度な頻度で作品やエピソードの投稿を行うことはお控えください」。人間には物理的に不可能な投稿数を記録するアカウントが現れ、新着機能が事実上崩壊しつつあった。

AI生成小説の大量投稿です。

以前、この件について記事を書きました。AI生成かどうかを見分ける技術は実用レベルに達していない。投稿頻度を抑えれば検知は困難。プロセス全体がプログラムで自動化できる。人間が介在するのは初期設定と最終チェックだけ。

カクヨムだけの話ではありません。テキストベースのプラットフォームは画像よりも判定が難しい。noteも、小説家になろうも、同じ構造的な脆弱性を抱えています。

AI生成コンテンツがプラットフォームに流入する。人間の創作物が埋もれる。プラットフォームの価値が毀損される。そのAI生成コンテンツが次のAIの学習データになる。

モデル崩壊のサイクルの入口が、もう開いている。

創作者が消えると、崩壊は加速する

カクヨムの記事で書いたことがあります。AIが進化して誰でもプロンプト入力だけで小説やイラストを生成できるようになると、「誰もが創作者」になる。でもその結果、プロのクリエイターが食えなくなる。若者が創作の道を目指さなくなる。

これはデータ枯渇の問題と合流します。

真の創作者がいなくなれば、AIは過去の作品の切り貼りしかできなくなる。新しい表現、新しい物語、新しい視点が生まれなくなる。AIが学習すべき「新鮮な人間の言葉」の供給が細る。モデル崩壊はさらに加速する。

経済的な問題(クリエイターが食えない)と技術的な問題(学習データの枯渇・汚染)が、同じ場所に流れ込んでいる。


手立て

業界が模索しているアプローチはいくつかあります。

2026年1月、ガートナーが「ゼロトラスト・データガバナンス」を提唱しました。すべてのデータをデフォルトで信頼せず、ソースの認証、品質検証、AI生成コンテンツのタグ付け、メタデータの継続管理を行う枠組みです。2028年までに企業の50%が採用するとガートナーは予測しています。

C2PA(Coalition for Content Provenance and Authenticity)はコンテンツの出自を暗号的に埋め込む技術の標準化を進めています。「人間が書いたのか、AIが生成したのか」を追跡可能にする試みです。

NYUの研究チームは、人間のデータに合成データを補助的に追加する形なら、モデル崩壊は起きないことを示しました。全部を合成データに置き換えるのではなく、混ぜて使う。ただ、混ぜるための人間のデータが枯渇していくなら、根本解決にはならない。

証明できない

もう一つ、厄介な問題があります。「人間が書いた」ことを証明する手段がない。

C2PAのような技術が普及したとしても、過去に書かれた膨大なWebコンテンツには遡及できない。これから書かれるものだけが対象になる。しかもその仕組み自体の導入が、まだ始まったばかりです。

カクヨムの記事で、制作過程を配信して「人間が書いている」証明をする作家が現れるかもしれないと書きました。でもそれすら確実ではない。配信映像がディープフェイクかもしれない。テキストの執筆画面を映していても、裏でAIが下書きを生成していないとは言い切れない。

「人間が書いた」というラベルに、技術的な保証をつけることが、極めて難しくなっている。


パラドックス

AIが賢くなるほど、AI生成コンテンツが増える。AI生成コンテンツが増えるほど、Webの情報の質が下がる。情報の質が下がるほど、次世代AIの学習データが汚染される。学習データが汚染されるほど、AIの出力が劣化する。

AIの進化が、AIの進化を阻害する。

高品質な人間の言葉という有限の資源を食い潰して賢くなったAIが、その資源を枯渇させ、自分の出力で自分を学習するしかなくなったとき、何が起きるか。

「もっとデータを集める」は、もう限界が見えています。古本を買い漁り海賊版をダウンロードした時代は、いずれ過渡期だったと振り返られるでしょう。次があるとすれば、「より少ないデータからより多く学ぶ」方向への転換です。人間の子供は、LLMの学習量のごくわずかな言語入力で豊かな言語能力を身につける。今のAIの学習方法は、人間の脳と比べて途方もなく非効率です。

その転換がいつ来るかは、誰にもわからない。

AIが生成したものではない、人間が自分の頭で考えて書いた言葉。それが今、かつてないほど希少な資源になりつつある。

GPT-5.3 Instantは確かに日本語が自然になりました。でもその進化を支えている燃料は、有限で、汚染が進んでいて、補充の見通しが立っていない。

AIは賢くなり続けるのか。この問いの答えは、AIではなく、人間が握っています。


読んでいただきありがとうございました。
コメント、記事購入、チップ等いつもありがとうございます。
大変感謝しております。
関連記事もありますので、下記サイトマップを参照していただければ幸いです。

ダウンロード
copy

いいなと思ったら応援しよう!

とある地方都市の某外科医 よろしければ応援お願いします!チップはnote更新用のPC購入費用に当てる予定です。よろしく!
チップで応援する
92