同じ幾何、逆のノイズ:トランスフォーマーの大きさ表現はスカラーのばらつきを欠く

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、トランスフォーマー言語モデルが「スカラーのばらつき(scalar variability)」を示すかどうかを検証する。ここでのスカラーのばらつきとは、表現上のノイズが大きさに比例してスケールし、その結果、生物学的な大きさシステムで見られる一定の変動係数(CV)が観測される状態を指す。
  • 3つの7〜8Bモデル(Llama-3-8B-Instruct、Mistral-7B-Instruct-v0.3、Llama-3-8B-Base)に対し、26個の数値的な大きさにわたって測定したところ、著者らは反スカラーなパターンを見いだす。すなわち、表現上のばらつきは大きさが増加するほど減少する(スケーリング指数α ≈ -0.19)。
  • この負のスケーリングは、全次元空間での解析(α ≈ -0.04)や、文の同一性による補正(α ≈ -0.007)など複数の検証でも持続し、主要な層のうち大半でα > 0は観測されない(0/16)。
  • 反スカラー効果は、大きさ軸に沿った場合のほうが直交する次元よりも3〜5倍強いと報告され、コーパス頻度は大きさごとのばらつきをかなり強く予測する(ρ = 0.84)。
  • 著者らは、トランスフォーマーにおける標準的な分布学習は、いくつかの対数圧縮的な大きさの幾何学を再現する一方で、生物学的な一定-CVのノイズという特徴は生成しないと結論づける。