ポストトレーニング後、出力多様性はどこで崩壊するのか?

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ポストトレーニングされた言語モデルはベースモデルより出力多様性が低下し、多様なサンプルに依存する推論時スケーリング手法を弱める可能性があります。
  • 本研究は、3つのポストトレーニング系統(Think:チェーン・オブ・ソート蒸留、Instruct:複数ソースデータ、RL-Zero)を追跡し、15のタスクと複数のテキスト多様性指標で検証しています。
  • 多様性崩壊が起きる位置は学習データ構成と強く相関しており、Thinkは主に教師あり微調整で意味的多様性を大きく失い、DPOの影響はInstructの方がThinkより大きいことが分かりました。
  • Thinkモデルで推論時にチェーン・オブ・ソート推論を抑制すると難問タスクで精度は下がるものの、回答レベルの多様性は大きくは変わらず、崩壊は生成フォーマットではなく学習データからモデル重みに埋め込まれていることを示唆します。
  • 多様性損失を「質の制御(誤った出力の除去)」と「正しい出力同士の本質的な狭まり(残差)」に分解すると、挙動はタスク依存であり、集計的にはThinkの方がInstructより正答の多様性をより保持することが示されました。

要旨: 後学習(post-trained)の言語モデルは、基となるモデルに比べて出力の多様性が低くなります。この出力多様性の崩壊は、ばらついたサンプルに依存する推論時のスケーリング手法を損ない、創造的で価値観の関わるタスクにおいてモデル出力を同質化するリスクを伴います。先行研究では、崩壊を特定の後学習手法に帰していますが、手法とは切り離して学習データの構成の役割を分離しておらず、また生成フォーマットとモデル重みの関係も分離できていません。私たちは、Olmo 3、Think(chain-of-thought蒸留)、Instruct(幅広い複数ソースのデータ)、RL-Zero の3つの並行する後学習系統に沿って、15のタスクと4つのテキスト多様性指標のもとで出力多様性を追跡します。その結果、崩壊の生じる位置はデータ構成と共変することが分かりました。すなわち、Think 系統では教師あり微調整(supervised fine-tuning)でほとんどの意味的多様性を失い、また DPO の効果は Think よりも Instruct において大きいのです。Think モデルにおいて推論時に chain-of-thought 推論を抑制すると、難しいタスクで精度は低下するものの、答え(answer)レベルの多様性は変わりません。これは、崩壊が生成フォーマットによって課されるのではなく、学習データによってモデル重みに埋め込まれていることを示しています。6つの検証可能なタスクにおける多様性喪失を、品質管理成分(誤った出力の除去)と残差成分(正しい出力間での真の狭まり)に分解すると、その分け方はタスク依存的であり、集計上はより多く崩壊しているにもかかわらず、Think モデルは Instruct よりも正解の多様性をより多く保持していることが明らかになります。以上の結果は、多様性の崩壊がデータ構成によって学習中に決定され、推論時だけでは対処できないことを示しています。