Anthropic研究者、「モデル仕様ミッドトレーニング(model spec midtraining)」を詳述:整合学習からの汎化を高めるために事前学習と微調整の間の段階を追加

Reddit r/artificial / 2026/5/7

💬 オピニオンModels & Research

要点

  • Anthropicの研究者は、「モデル仕様ミッドトレーニング(model spec midtraining)」として、事前学習と微調整の間に学習段階を挿入し、汎化をより高める手法を提案している。
  • このアプローチは、整合(アライメント)学習の効果が新しい状況や未見の状況にもより確実に移るようにし、整合目標への過度な適合を抑えることを狙っている。
  • 本手法は、単一の新しいアルゴリズムやツールというより、学習パイプライン構造の変更として説明されている。
  • 追加するミッドトレーニング段階によって、整合チューニングされた振る舞いがさまざまな文脈でもより堅牢に維持される可能性が示唆されている。