言語トランスフォーマにおける異方性を再考する:学習ダイナミクスの幾何

arXiv cs.CL / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Transformerベースの言語モデルにおける異方性を再検討し、それが学習ダイナミクスの幾何学的な解釈を複雑にすると論じる。
  • 周波数にバイアスしたサンプリングが「曲率の可視性」をどのように低下させ、学習がなぜ接線方向を増幅しがちなのかについて、幾何学的な説明を与える。
  • 著者らは、訓練中に概念ベースのメカニスティック解釈可能性を用いる経験的手法を導入し、活性から導出した低ランクの接線プロクシを当てはめる。
  • 活性から得られた接線方向を、標準のバックプロパゲーションによる真の勾配と照合し、これらが不釣り合いに大きな勾配エネルギーと、勾配の異方性のより大きな割合を捉えていることを示す。
  • エンコーダ型およびデコーダ型の両方の言語モデルに対して結果を報告し、異方性を「接線に整列した」説明で支持する。

Abstract

導入以来、Transformer アーキテクチャは自然言語処理(NLP)を支配してきました。しかし近年の研究では、これらのモデルに固有の異方性(anisotropy)現象があることが明らかにされており、幾何学的な解釈にとって大きな課題となっています。この現象に関するこれまでの理論研究は、その基盤となる表現の幾何に裏付けられていることは稀でした。本論文では、周波数バイアス付きサンプリングがどのように曲率の可視性を減衰させるのか、またなぜ学習が接線方向(tangent directions)を優先的に増幅させるのかについての幾何学的議論を導出することで、それらを拡張します。さらに実験的には、事後的(post hoc)な解釈に限らず、学習中に概念ベースのメカニスティック解釈可能性(concept-based mechanistic interpretability)を用いて、活性(activation)から得られる低ランクの接線プロキシを適合させ、それらを通常のバックプロパゲーションによって得られる真の勾配(true gradients)に対して検証します。エンコーダ型およびデコーダ型の言語モデルの両方において、これらの活性由来の方向は、対応するランクの一般的対照(matched-rank normal controls)よりも、異常に大きな勾配エネルギーと、勾配の異方性に対する実質的により大きな寄与割合の両方を捉えることが分かりました。これは、異方性を接線方向に整列した(tangent-aligned)説明で捉えることへの強い実証的支持を与えます。