表現の曲率が大規模言語モデルの行動上の不確実性を調整する

arXiv cs.AI / 2026/4/28

📰 ニュースModels & Research

要点

  • 本論文は、自己回帰LLMにおいて「文脈上の曲率」(直近コンテキストにわたって表現の軌跡がどれだけ鋭く曲がるか)を幾何学的に定義し、それを次トークンのエントロピー(トークンレベルの不確実性)と結び付ける直接的な関連を示します。
  • GPT-2 XLとPythia-2.8Bの2モデルで、文脈上の曲率はエントロピーと相関し、その関係は学習中に現れることが示されます。
  • 介入(摂動)実験では、因果性が選択的であることが分かり、軌跡に整合した操作はエントロピーを確実に変えますが、幾何学的に不整合な操作は効果がありません。
  • 学習中に表現を「よりまっすぐ」に保つ正則化を入れると、検証損失を悪化させずにトークンレベルのエントロピーがわずかに低下します。
  • 総じて、この研究は軌跡の曲率を、LLMの行動上の不確実性を左右するタスクに整合した表現特徴として位置付けています。

要旨: 自己回帰型の大規模言語モデル(LLM)において、時間的ストレート化(temporal straightening)は、次トークン予測目的が表現をどのように形成するかを説明する枠組みを提供する。モデルは、層をまたいで入力系列の表現軌道を段階的にストレートにしていくことを学習し、線形外挿によって次トークン予測を促進できる可能性がある。しかし、この軌道とトークンレベルの振る舞いとの直接的な関連は欠けていた。本研究では、文脈曲率(contextual curvature)――直近の文脈にわたって表現軌道がどれほど鋭く折れ曲がるかを測る幾何学的尺度――を次トークンエントロピーに結び付けることで、この関連を提示する。2つのモデル(GPT-2 XLおよびPythia-2.8B)において、文脈曲率はエントロピーと相関しており、この関係は訓練中に現れる。摂動(perturbation)実験では選択的依存性が明らかになる。すなわち、軌道に整合した介入によって曲率を操作するとエントロピーが確実に変調される一方、幾何学的に整合していない摂動では効果がない。最後に、訓練中によりまっすぐな表現を正則化することで、妥当性損失(validation loss)を悪化させることなく、トークンレベルのエントロピーがわずかに低下する。これらの結果は、軌道曲率がタスクに整合した表現特徴であり、LLMにおける行動的不確実性に影響することを示している。