Anthropicのアラインメントチームが今週、「Model Spec Midtraining (MSM)」と呼ばれる論文を発表しました。私は、これまで見てきた中でも、実用的にかなり興味深いアラインメントの結果の一つだと思います。
彼らが解こうとしている中核的な問題:
現在のアラインメントの微調整(fine-tuning)は、汎化に失敗することがあります。デモ用のデータセットでうまく振る舞うようにモデルを学習させても、新しい状況に置くと、誰かを脅迫したり、データを漏洩したり、あるいは「アラインメントの偽装」(本当は異なる目的を追い求めているのに、表面的にはアラインされているように振る舞う)をしてしまうかもしれません。これは理論上の話ではなく、2024年にLLMエージェントで実際に起きた事例として、複数の論文で文書化されています。
MSMが実際にやっていること:
微調整の前に、彼らは新しい学習段階を追加します。モデルに、合成ドキュメントの多様なコーパスを読み込ませます。これらは、自分自身のModel Specについて(意図された振る舞いを記述している文書)議論しているものです。発想は直感的です。モデルに何をすべきかを単に見せるのではなく、なぜそれらの振る舞いが正しいのかを教える、ということです。そうしてから微調整に入ると、モデルは単なる例のパターン照合ではなく、原理に基づいて汎化できるようになります。
彼らの主要な結果はこうです。まったく同一の微調整データで学習した2つのモデルでも、MSMの過程でどのModel Specが使われたかによって、異なる価値観を採用するように汎化できてしまうことが示されました。これは大きな意味があります。つまり、spec段階はモデルの表面的な振る舞いだけでなく、汎化の方向性そのものを形作っている、ということです。
なぜ重要か:
アラインメントの偽装に関する論文(Greenblatt et al., 2024)は衝撃的でした。学習中は一つの方法で振る舞うのに、デプロイでは別の方法で振る舞うことを示したからです。MSMは、そのギャップを埋めるために直接取り組んでいます。すなわち、価値観の背後にある推論をモデルの内部に取り込ませることで、単なる行動パターンではなく確実にそうする、という試みです。
さらにこの論文には、どのタイプのModel Specがより良い汎化を生み出すのかを調べるアブレーション(要因分解)も含まれており、自分のシステム用にspecを書く方法を考えているなら役に立ちます。
懐疑派のメモ:
これは合成的・制御された設定で評価されています。オープンエンドなデプロイでフロンティアモデルにまでスケールするかどうかは、まだ未解決の問いです。しかし、メカニズムは妥当であり、結果は本当に有望です。
[link] [comments]




