スケーラブルな合成データ生成のためのダイナミック・コンテキスト進化
arXiv cs.CL / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、LLM による合成データ生成において「バッチ間モード崩壊(cross-batch mode collapse)」を導入する。これは、独立したプロンプトを繰り返すことで、出力の多様性が徐々に低下する現象である。
- 提案手法であるダイナミック・コンテキスト進化(DCE)は、言語化されたテールサンプリング、バッチをまたいだ近似重複の拒否のためのセマンティック・メモリ、さらに多様性を維持するためにメモリからプロンプトを作り直す適応的なプロンプト進化を組み合わせる。
- 3つのドメインと2つのモデルファミリ(gpt-5-mini と claude-haiku-4-5)にわたる実験では、DCE によりモード崩壊が 0.0% に低減されることが示されている(素朴なプロンプトでは約5.6%)。また、概念クラスタが大幅に安定する。
- 手法は独立した埋め込みモデル(all-MiniLM-L6-v2)を用いて検証されており、VTS 閾値(tau)および重複排除閾値(delta)に対する感度スイープ下でも頑健である。
- 報告によれば、DCE は微調整や専用アーキテクチャなしで候補の多様性を改善する。標準的なAPI呼び出しを用いた場合のコストは、1,000候補あたり約0.50ドル程度である。




