トランスフォーマーにおける観測可能性はアーキテクチャが決める

arXiv cs.LG / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 自己回帰トランスフォーマーは自信ありげに誤ることがあり、出力の信頼度では露出しない内部信号が保存されているかどうかによって、活性モニタリングで誤りを検知できるかがアーキテクチャと学習レシピに左右される。
  • 本研究は「観測可能性」を、max-softmaxの信頼度と活性ノルムを制御したうえで凍結した中間層の活性から、トークンごとの意思決定品質を線形に読み取れる度合いとして定義し、信頼度だけで平均して生のプローブ信号の57.7%が吸収されることを示す。
  • 観測可能性はトランスフォーマー全般に共通する性質ではなく、Pythiaの管理された比較では24層/16ヘッド構成が低い部分相関(約0.10)へ崩壊し、他の構成はより高く健康な帯(約0.21〜0.38)を示す。
  • 崩壊は学習中に新たに現れる(創発する)一方で、初期段階から欠けているわけではなく、早期のチェックポイントでは信号を作れても、学習の進行で信号が消失しうることが示される。
  • モデルやレシピをまたいでも崩壊のパターンは持続し、アーキテクチャ依存であることが分かり、WikiTextで学習した「オブザーバー」は自信度で見逃された誤りを下流のQAで検知できるため、モニタリングの観点ではアーキテクチャ選定が重要な判断だと示唆される。

要旨: 自己回帰型トランスフォーマーは自信に満ちた誤りを犯しますが、アクティベーション(活性)モニタリングでそれを捕捉できるのは、出力される自信が示さない内部信号をモデルが保持している場合に限られます。この保持は、アーキテクチャと学習の手順(レシピ)によって決まります。私たちは、最大softmaxの自信とアクティベーションのノルムを制御した上で、中間層の固定済みアクティベーションから得られる、トークンごとの意思決定品質の線形な読み取りやすさとして観測可能性(observability)を定義します。この補正は不可欠です。自信は、6つのファミリーに属する13モデルにわたって平均で、生のプローブ(検査)信号の57.7%を吸収します。
観測可能性はトランスフォーマーに一般的に備わる性質ではありません。Pythiaの制御された一連の実験では、24層・16ヘッド構成を用いたテスト実行はすべて、3.5倍のパラメータギャップと2つのPileバリアントのもとで、rho_partial ~0.10へと崩壊します。一方で、他の6つの構成は、0.21から0.38の間に分離された健全な帯(healthy band)を占めます。出力を制御した残差も同じ地点で崩壊し、テストした非線形プローブや層スイープによっても健全範囲の信号は回復しません。チェックポイントのダイナミクスは、この崩壊が学習中に創発的(emergent)に起こることを示します。同一の隠れ次元(hidden dimension)に揃えた2つの構成では、最も早期に測定したチェックポイントでは信号が形成されますが、(24L, 16H)クラスでは学習によってそれが消去される一方で、予測損失は引き続き改善します。
独立した複数のレシピにわたって、崩壊マップは変化しますが、現象は持続します。Qwen 2.5とLlamaは、3Bスケールで一致させた場合に2.9倍異なり、プローブのシード分布は重ならないのに対し、Mistral 7BはLlama 3.1 8Bが崩壊するにもかかわらず、観測可能性を維持します。WikiTextで学習したオブザーバは、それらのタスクで学習していなくても、下流のQAへ転移し、自信が見逃す誤りを捕捉します。フラグ率が20%のとき、その排他的な捕捉率は、9つのモデル・タスクのセルのうち7つで、すべての誤りの10.9-13.4%です。アーキテクチャ選択は、モニタリング上の意思決定です。