トランスフォーマーは誤答を拒絶する――事実制約処理の回転ダイナミクス

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 4つのデコーダー専用モデル(1.5B〜13Bパラメータ)の全層にわたり、同一クエリを正解と不正解の単一トークン連続で比較する強制完了プロービングを導入する。
  • 正解経路と誤答経路は概ね超球面上での回転によって分岐することを示しており、変位の大きさはほぼ同じままで、層を追うごとに角度的分離が増大する。
  • 不正確な入力に直面した際、モデルは正解の答えを積極的に抑制し、正しいトークンから確率を離す方向へ移動する。
  • これらの効果が現れるパラメータ閾値は約16億パラメータ(1.6B)で、事実処理能力における位相転移を示している。

概要: 言語モデルに誤った答えが入力されると、ネットワーク内で何が起こるのか?
現在の理解では、真実性を個々の層表現の静的な特性として捉え、それは探査すべき方向であり、抽出すべき特徴である。
ダイナミクスについてはあまり知られていない。モデルが正しい継続と誤った継続を処理する際、ネットワークの全深さにわたって内部表現がどのように分岐するのか。
forced-completion probing(強制完了プロービング)を導入する方法で、同一クエリを既知の正解と不正解の単一トークン継続で提示し、4つのデコーダー専用モデル(1.5B-13Bパラメータ)の各層にわたって5つの幾何学的測定を追跡します。
我々は3つの所見を報告します。第一に、正しい経路と不正確な経路は回転によって分岐し、リスケーリングではない:変位ベクトルはほぼ同一の大きさを保ちながら角度の分離が増加し、事実選択は概ね超球面上の方向に符号化されていることを意味します。第二に、モデルは不正確な入力に対して受動的に失敗するのではなく、むしろ能動的に正解の答えを抑制し、右のトークンから内部確率を遠ざける。第三に、これらの現象はパラメータ閾値以下では完全に現れず、1.6Bパラメータで現れることから、事実処理能力における相転移を示唆している。これらの結果は、事実制約処理には特定の幾何学的特徴があることを示している。回転的で、スカラー的ではなく、能動的で受動的でもない――これは単一層プローブや大きさの比較に基づく手法には見えない。