AI Navigate

リプレイを用いた言語生成:モデル崩壊の学習理論的視点

arXiv cs.LG / 2026/3/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 学習理論的枠組みの中で、モデル自身の過去の出力を訓練データストリームに追加するリプレイ・アドバーサリを導入し、モデル崩壊を研究します。
  • 均一生成の最も強い概念に対してリプレイは無害ですが、非均一生成および極限生成の概念に対しては分離を生み出すことを、細粒度な学習理論的特徴づけとして示します。
  • 本研究の知見は、データクリーニング、ウォーターマーキング、出力フィルタリングといった実用的な緩和戦略に関連しており、これらのヒューリスティックがいつ失敗する可能性があるかを明らかにします。
  • 本研究は、大規模言語モデルの訓練における現在のデータ汚染緩和アプローチの限界に関する理論的洞察を提供します。
本文: arXiv:2603.11784v1 アナウンス種別: 新規 要旨: スケーリング法則が最前線の大規模言語モデル(LLMs)の訓練をますます大きなデータ要件へと押し進める中、訓練パイプラインは公開されているオンラインテキストの多くが消費される局面に近づいています。同時に、広範なLLMの利用はウェブ上の機械生成コンテンツの量を増やします。これらの傾向が相まって、生成されたテキストが将来の訓練コーパスに再登場する可能性を高め、性能低下の関連リスク、しばしば「モデル崩壊」と呼ばれるものを高めます。実務では、データクリーニング、透かし(ウォーターマーキング)、合成データポリシー、あるいは場合によっては安穏な無知のまま放置することもあります。しかし、生成モデルにおけるモデル崩壊の問題は学習理論的視点からは検討されてこなかった。我々は、極限における言語生成の理論的レンズを通じてこれを研究し、ジェネレータの過去の出力をサンプル列に補強するリプレイ・アドバーサリを導入します。我々の主な貢献は、リプレイが生成を根本的に制限する条件を細粒度の学習理論的特徴づけとして示すことです。均一生成の最も強い概念に対してはリプレイは無害ですが、非均一生成および極限生成の概念では分離を生み出すことを、厳密に証明します。興味深いことに、我々の正の結果はデータクリーニング、ウォーターマーキング、出力フィルタリングといった実務で広く用いられているヒューリスティクスに対応しており、一方で我々の分離はこれらの考えがいつ失敗するかを示します。