教師あり微調整の層ごとの分析

arXiv cs.AI / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、教師あり微調整(SFT)が、壊滅的忘却などのリスクを抑えつつ、どのように命令追従行動を生み出すのかを研究し、1B〜32Bパラメータ規模にわたって層レベルのメカニズムに焦点を当てる。
  • 実験により、深さに依存した安定性パターンが見出される。すなわち、中間層(全体の約20%〜80%)は安定性が保たれる一方で、最終層はチューニングに対して大幅に敏感である。
  • これに基づき著者らは、ネットワーク全体に一様な適応を適用するのではなく、重要な中間層のみを選択的に更新する「Mid-Block Efficient Tuning」を提案する。
  • 提案手法は、標準的なLoRAよりも強力な結果を達成し、パラメータのオーバーヘッドを抑えつつ、OLMo2-7BにおいてGSM8Kで最大10.2%の改善を示す。
  • 著者らは、アライメント効果が完全に分散したものよりも、アーキテクチャ的に局所化されていることを報告しており、再現性のための公開コードも提供している。

要旨: 整合(アラインメント)にとって重要である一方で、教師あり微調整(SFT)は壊滅的忘却のリスクを伴うが、命令追従能力が層ごとにどのように創発するかは依然として解明されていない。われわれは、モデル規模(1B-32B)にわたって情報理論的・幾何学的・最適化の指標を用いた包括的な分析により、このメカニズムを調査する。実験の結果、明確な深さ依存のパターンが見いだされた。すなわち、中間層(20\%-80\%)は安定しているのに対し、最終層は高い感度を示す。この洞察を活用し、これらの重要な中間層のみを選択的に更新する Mid-Block Efficient Tuning(中間ブロック効率的チューニング)を提案する。実験的に、われわれの手法は、パラメータのオーバーヘッドを抑えつつ、GSM8K(OLMo2-7B)で標準のLoRAに対して最大10.2\%上回る。これは、有効なアラインメントが分散的にではなく、アーキテクチャ的に局所化されていることを示している。コードは https://anonymous.4open.science/r/base_sft で公開されている。