ランダム性の下限:言語モデルのトークン分布における固有の非ランダム性を測定する

arXiv cs.CL / 2026/4/28

💬 オピニオンModels & Research

要点

  • この論文では、言語モデルのトークン分布と一様分布の正規化KLダイバージェンスを用いて非ランダム性を定量化する指標「Entropic Deviation(ED)」を提案している。
  • 7モデル・計31,200回の生成にわたる検証では、意味的に中立なプロンプト下でもEDが大きく残り、観測される非ランダム性の多くが文脈ではなく学習済み重みに内在していることを示唆する。
  • Gemma、Llama、Qwenのようなトランスフォーマ系では、学習データや語彙が異なっていてもED値がほぼ収束し、事前学習トランスフォーマに共通する構造的性質が示されている。
  • 一方で、状態空間モデル(Mamba2)は「別のレジーム」を示し、EDが約2倍であることに加え、系列内分散が低く、温度への強い感度が観測される(トランスフォーマは比較的鈍い)。
  • Qwen-32Bによる5言語のクロスリンガル実験では、トークナイザーの部分集合が同一でも結果が維持され、言語そのものがトークナイゼーションとは独立にランダム性の下限に影響することが示される。