リプレイを用いた言語生成：モデル崩壊の学習理論的視点

arXiv cs.LG / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

学習理論的枠組みの中で、モデル自身の過去の出力を訓練データストリームに追加するリプレイ・アドバーサリを導入し、モデル崩壊を研究します。
均一生成の最も強い概念に対してリプレイは無害ですが、非均一生成および極限生成の概念に対しては分離を生み出すことを、細粒度な学習理論的特徴づけとして示します。
本研究の知見は、データクリーニング、ウォーターマーキング、出力フィルタリングといった実用的な緩和戦略に関連しており、これらのヒューリスティックがいつ失敗する可能性があるかを明らかにします。
本研究は、大規模言語モデルの訓練における現在のデータ汚染緩和アプローチの限界に関する理論的洞察を提供します。

本文: arXiv:2603.11784v1 アナウンス種別: 新規要旨: スケーリング法則が最前線の大規模言語モデル（LLMs）の訓練をますます大きなデータ要件へと押し進める中、訓練パイプラインは公開されているオンラインテキストの多くが消費される局面に近づいています。同時に、広範なLLMの利用はウェブ上の機械生成コンテンツの量を増やします。これらの傾向が相まって、生成されたテキストが将来の訓練コーパスに再登場する可能性を高め、性能低下の関連リスク、しばしば「モデル崩壊」と呼ばれるものを高めます。実務では、データクリーニング、透かし（ウォーターマーキング）、合成データポリシー、あるいは場合によっては安穏な無知のまま放置することもあります。しかし、生成モデルにおけるモデル崩壊の問題は学習理論的視点からは検討されてこなかった。我々は、極限における言語生成の理論的レンズを通じてこれを研究し、ジェネレータの過去の出力をサンプル列に補強するリプレイ・アドバーサリを導入します。我々の主な貢献は、リプレイが生成を根本的に制限する条件を細粒度の学習理論的特徴づけとして示すことです。均一生成の最も強い概念に対してはリプレイは無害ですが、非均一生成および極限生成の概念では分離を生み出すことを、厳密に証明します。興味深いことに、我々の正の結果はデータクリーニング、ウォーターマーキング、出力フィルタリングといった実務で広く用いられているヒューリスティクスに対応しており、一方で我々の分離はこれらの考えがいつ失敗するかを示します。

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

Dev.to

GANを用いたデータ拡張

Dev.to

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

Dev.to

リプレイを用いた言語生成：モデル崩壊の学習理論的視点

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ