概要: 生成モデルの広範な利用はフィードバックループを生み出しており、そこでは各世代のモデルが、その前身が部分的に生成したデータで学習されます。このプロセスにより、モデルの崩壊(モデル崩壊)についての懸念が提起されています。これは、合成データに対する反復学習によって引き起こされる性能の決定的な劣化です。しかし、文献中の異なる分析は、モデル崩壊の深刻さについて異なる結論に到達しています。そのため、この現象がどれほど憂慮すべきものなのか、またどのような仮定の下で回避できるのかが依然として不明です。これに対処するため、我々は、合成データを元のデータセットに徐々に追加していく自然な状況において、最大尤度推定(MLE)に対するモデル崩壊を理論的に研究します。標準的な仮定(MLEの漸近的な一致性および漸近的な正規性を証明するために長年使われてきたものと類似)のもとで、実データの割合がゼロに近づく場合であっても、崩壊が回避できることを示す非漸近的な上界を確立します。一方で、我々は、ある仮定(MLEの一致性を超えたもの)については実際に必要であることを証明します。これらがない場合、元のデータが学習セットにまだ存在しているとしても、モデル崩壊は任意に速い時間スケールで起こり得ます。私たちの知る限り、これらは、データが蓄積されていく反復的な生成モデリングが、急速にモデル崩壊へ至ることを示す最初の厳密な例です。
モデルが崩壊しないとき:反復MLEの整合性について
arXiv stat.ML / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、反復的な生成モデリングにおける「モデル崩壊(model collapse)」を調査している。そこでは、新しい各モデルが、過去の世代で生成された合成データと実データの混合物で学習される。
- 標準的なMLE(最大尤度推定)仮定のもとで、実データの割合が(実質的に)ゼロへ減少しても、崩壊を回避できることを示す理論的・非漸近的な保証を提示する。
- 著者らはまた、基本的なMLEの整合性(consistency)に加えて追加の仮定が必要であることも示す。というのも、それらの仮定を取り除くと、学習データセット中に本来の実データが残っているにもかかわらず、崩壊が任意に速い速度で発生し得るからである。
- 本研究は、合成データが蓄積していく状況での反復学習を扱い、かつ崩壊が防げる場合/防げない場合を明示的に特徴付ける、こうした結果が厳密な例としては最初期のものの一つであると主張している。




