深層言語モデルにおける層更新の幾何学的構造について

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、内部で何が符号化されているかではなく、深層言語モデルにおける層間での隠れ表現の変化の幾何学的構造に注目しつつ分析する。
  • 複数のアーキテクチャ(Transformerや状態空間モデルを含む)にわたって、層の更新全体の大部分は、支配的なトークンごとの成分に強く整合している一方、残差部分は幾何学的に異なっていることを見出す。
  • 残差成分は整合の度合いが弱く、角度のずれが大きく、支配的なトークンごとの部分空間への射影が低いことが示されており、単なる小さな補正ではないことを示唆する。
  • 著者らは、トークンごとの関数クラスを制限したもとでの近似誤差が出力の摂動と強く相関することを示し、大規模モデルではSpearman相関がしばしば0.7を超え、最大で0.95に達する。
  • 彼らは、現代の言語モデルにおける層更新の幾何学的・機能的構造を調べるための、アーキテクチャ非依存の枠組みを提案する。

Abstract

我々は、深層言語モデルにおける層更新の幾何学的構造を研究する。中間表現にどのような情報が符号化されているかを分析するのではなく、表現が1つの層から次の層へどのように変化するのかを問う。層ごとの更新は、支配的なトークンごとの成分と、それとは別に、制限されたトークンごとの関数クラスでは捉えられない残差へと分解可能であることを示す。 複数のアーキテクチャ、すなわちTransformerおよび状態空間モデルを含む場合において、層全体の更新はトークンごとの成分にほぼ完全に整列している一方で、残差はそれよりも大幅に弱い整列を示し、より大きな角度偏差を持ち、支配的なトークンごとの部分空間への射影は著しく低い。これは残差が単なる小さな補正ではなく、変換の幾何学的に異なる成分であることを示している。 この幾何学的な分離には機能上の帰結がある。制限されたトークンごとのモデルにおける近似誤差は、出力の摂動と強く関連しており、Spearmanの相関はしばしば0.7を超え、大規模なモデルでは最大0.95に達する。これらの結果は、ほとんどの層ごとの更新が、支配的な方向に沿った構造化された再パラメータ化のように振る舞う一方で、機能的に重要な計算は、幾何学的に異なる残差成分に集中していることを示唆する。 我々の枠組みは、現代の言語モデルにおける層更新の幾何学的および機能的構造を探索するための、シンプルでアーキテクチャ非依存の方法を提供する。