進化するChatGPTモデルの自己収束に関する実験的証拠
arXiv cs.AI / 2026/3/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、合成データを用いた再帰的トレーニングが「モデル自己収束」を引き起こし、新しいChatGPTリリース間で出力の多様性を低下させる可能性を調査します。
- 出力の多様性を定量化するテキスト類似度指標を用い、時間の経過に伴い複数のChatGPTバージョンを比較したところ、温度を1に設定しても測定可能な低下が見られました。
- 著者らは、多様性の喪失をトレーニングセット中の合成データの増加に起因すると説明しており、LLM生成コンテンツがインターネット全体に浸透している可能性があると示唆します。
- この長期的な効果が展開するにつれて、モデルバージョン間の出力の類似性が高まることを表す用語として「model self-convergence」を提唱している。