ファインチューニングの深さプロファイルを分解する
arXiv cs.LG / 2026/4/21
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、125M〜6.9Bパラメータ規模にまたがる15モデル・4つのアーキテクチャ系統を対象に、240回のファインチューニング実験を通じて「深さプロファイル(表現変化の分布)」を調べています。
- 標準的な学習設定のほとんどのファインチューニング実行では、表現変化が出力に近い層に集中することが示され、一般的な局所性のパターンが示唆されます(ただし例外も1件観測されています)。
- 著者らは、オプティマイザの各ステップ後に層ごとの相対的な重み更新量(||ΔW||/||W||)を揃える制御を導入し、その深さプロファイル挙動が条件によっては維持され、別の条件では崩れることを示します。
- アーキテクチャ差として、逐次ブロック型(BERT, OPT, GPT-2)はより多くの目的関数で同様の勾配を保持する一方、並列ブロック型(Pythia, CodeGen)は因果言語モデル化目的でのみ保持し、区別は約1.3B〜1.4Bで弱まることが示されます。
- 標準学習では、深さプロファイル形状は追加の2軸で説明でき、傾き(steepness)は初期化時に測る訓練不要の目的関数距離と相関し、プロファイル幅(width)はアーキテクチャが主に支配します。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA