ファインチューニングの深さプロファイルを分解する

arXiv cs.LG / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、125M〜6.9Bパラメータ規模にまたがる15モデル・4つのアーキテクチャ系統を対象に、240回のファインチューニング実験を通じて「深さプロファイル(表現変化の分布)」を調べています。
  • 標準的な学習設定のほとんどのファインチューニング実行では、表現変化が出力に近い層に集中することが示され、一般的な局所性のパターンが示唆されます(ただし例外も1件観測されています)。
  • 著者らは、オプティマイザの各ステップ後に層ごとの相対的な重み更新量(||ΔW||/||W||)を揃える制御を導入し、その深さプロファイル挙動が条件によっては維持され、別の条件では崩れることを示します。
  • アーキテクチャ差として、逐次ブロック型(BERT, OPT, GPT-2)はより多くの目的関数で同様の勾配を保持する一方、並列ブロック型(Pythia, CodeGen)は因果言語モデル化目的でのみ保持し、区別は約1.3B〜1.4Bで弱まることが示されます。
  • 標準学習では、深さプロファイル形状は追加の2軸で説明でき、傾き(steepness)は初期化時に測る訓練不要の目的関数距離と相関し、プロファイル幅(width)はアーキテクチャが主に支配します。