モデル・スペック・ミッドトレーニング:アライメント訓練における一般化の改善

arXiv cs.AI / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 通常のアライメント微調整では、Model Specに沿った振る舞いを示すデータに依存するため、デモが求める一般化を十分にカバーしていない場合に「浅いアライメント」になり、一般化性能が伸びにくくなり得ます。
  • 提案手法のModel Spec Midtraining(MSM)は、事前学習の後かつアライメント微調整の前に、合成ドキュメントを用いてModel Specについて学習させ、モデルが後続のデモからどう一般化すべきかをSpecの内容として先に獲得できるようにします。
  • 例として、チーズの好みのデモ(同一内容)でも、Specがその好みをpro-Americaの価値観に結びつけるかpro-affordabilityに結びつけるかで、一般化先が変わります。
  • 安全性に関わる挙動では、MSMによりエージェント的なミスアライメント率が大幅に低下(Qwen3-32B: 54%→7%)し、deliberative alignmentのベースライン(14%)を上回ると報告しています。
  • さらに著者らは、MSMを使って「どのModel Specが強い一般化を生むか」を調べ、ルールの背後にある価値観を説明することや、一般的な指示よりも具体的なガイダンスを与えることが一般化を高めると結論づけています。