スケーラブルな合成データ生成のためのダイナミック・コンテキスト進化

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、LLM による合成データ生成において「バッチ間モード崩壊(cross-batch mode collapse)」を導入する。これは、独立したプロンプトを繰り返すことで、出力の多様性が徐々に低下する現象である。
  • 提案手法であるダイナミック・コンテキスト進化(DCE)は、言語化されたテールサンプリング、バッチをまたいだ近似重複の拒否のためのセマンティック・メモリ、さらに多様性を維持するためにメモリからプロンプトを作り直す適応的なプロンプト進化を組み合わせる。
  • 3つのドメインと2つのモデルファミリ(gpt-5-mini と claude-haiku-4-5)にわたる実験では、DCE によりモード崩壊が 0.0% に低減されることが示されている(素朴なプロンプトでは約5.6%)。また、概念クラスタが大幅に安定する。
  • 手法は独立した埋め込みモデル(all-MiniLM-L6-v2)を用いて検証されており、VTS 閾値(tau)および重複排除閾値(delta)に対する感度スイープ下でも頑健である。
  • 報告によれば、DCE は微調整や専用アーキテクチャなしで候補の多様性を改善する。標準的なAPI呼び出しを用いた場合のコストは、1,000候補あたり約0.50ドル程度である。

Abstract

大規模言語モデルは、多くのバッチに対してそれぞれ独立にプロンプトを与えると、反復的な出力を生成することがあります。この現象を我々は「バッチ間モード崩壊(cross-batch mode collapse)」と呼びます。これは、言語モデルが過去の生成結果にアクセスできないまま、繰り返しプロンプトを与えられることで、出力の多様性が段階的に失われていく現象です。実務者たちは、これを経験則的な重複排除(deduplication)やシード回転で長年緩和してきましたが、体系的な枠組みは存在しません。そこで本稿では、Dynamic Context Evolution(DCE)を導入します。DCEは3つのメカニズムから構成されます。(1)言語化された末尾サンプリング(verbalized tail sampling):モデルが各アイデアについて、それがどれほど自明かという見立てを言語化し、自明なアイデアは破棄します。これにより、モデル自身の自己評価を通じて高確率の候補をフィルタします。(2)セマンティック・メモリ(semantic memory):持続的な埋め込みインデックスを維持し、バッチ間で近い重複(near-duplicates)を拒否します。(3)適応的プロンプト進化(adaptive prompt evolution):メモリ状態と回転する多様性戦略を用いて、各バッチごとに生成プロンプトを再構築します。3つの領域(持続可能な包装コンセプト、教育用の試験問題、創作ライティングのプロンプト)と2つのモデル系列(gpt-5-miniおよびclaude-haiku-4-5)に対する実験では、各手法につき2~3個のランダムシードでコンポーネント除去(ablation)を行うことで、DCEは単純なプロンプト(naive prompting)に対して、0.0 +/- 0.0% の崩壊(collapse)を達成しながら、単純なプロンプトの 5.6 +/- 2.0% に比べて優れた抑制を示します。また、クラスタ数についても、DCEはシードあたり17~18個のHDBSCANクラスタを生成するのに対し、単純なプロンプトは変動的で2~17個であり、確実により豊かな概念構造が得られることが示されます。これらの結果は、独立した埋め込みモデル(all-MiniLM-L6-v2)によって検証されており、VTS閾値tauとdedup閾値deltaの感度スイープを通じて保持されます。重複排除とプロンプト進化はそれぞれ単独では不十分ですが、両者を組み合わせると効果があり、標準的なAPI呼び出しのみを用いて、1,000候補あたり約$0.50で実現できます。微調整(fine-tuning)やカスタムのアーキテクチャは不要です。