表現の曲率が大規模言語モデルの行動上の不確実性を調整する

arXiv cs.AI / 2026/4/28

📰 ニュースModels & Research

共有:

要点

本論文は、自己回帰LLMにおいて「文脈上の曲率」（直近コンテキストにわたって表現の軌跡がどれだけ鋭く曲がるか）を幾何学的に定義し、それを次トークンのエントロピー（トークンレベルの不確実性）と結び付ける直接的な関連を示します。
GPT-2 XLとPythia-2.8Bの2モデルで、文脈上の曲率はエントロピーと相関し、その関係は学習中に現れることが示されます。
介入（摂動）実験では、因果性が選択的であることが分かり、軌跡に整合した操作はエントロピーを確実に変えますが、幾何学的に不整合な操作は効果がありません。
学習中に表現を「よりまっすぐ」に保つ正則化を入れると、検証損失を悪化させずにトークンレベルのエントロピーがわずかに低下します。
総じて、この研究は軌跡の曲率を、LLMの行動上の不確実性を左右するタスクに整合した表現特徴として位置付けています。

要旨: 自己回帰型の大規模言語モデル（LLM）において、時間的ストレート化（temporal straightening）は、次トークン予測目的が表現をどのように形成するかを説明する枠組みを提供する。モデルは、層をまたいで入力系列の表現軌道を段階的にストレートにしていくことを学習し、線形外挿によって次トークン予測を促進できる可能性がある。しかし、この軌道とトークンレベルの振る舞いとの直接的な関連は欠けていた。本研究では、文脈曲率（contextual curvature）――直近の文脈にわたって表現軌道がどれほど鋭く折れ曲がるかを測る幾何学的尺度――を次トークンエントロピーに結び付けることで、この関連を提示する。2つのモデル（GPT-2 XLおよびPythia-2.8B）において、文脈曲率はエントロピーと相関しており、この関係は訓練中に現れる。摂動（perturbation）実験では選択的依存性が明らかになる。すなわち、軌道に整合した介入によって曲率を操作するとエントロピーが確実に変調される一方、幾何学的に整合していない摂動では効果がない。最後に、訓練中によりまっすぐな表現を正則化することで、妥当性損失（validation loss）を悪化させることなく、トークンレベルのエントロピーがわずかに低下する。これらの結果は、軌道曲率がタスクに整合した表現特徴であり、LLMにおける行動的不確実性に影響することを示している。

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

note

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

GIGAZINE

ADAMオプティマイザーの収束証明の改良

Dev.to

デモではなく実際に稼働する――自律的にビジネスを回すAIを作った（YC出資、学びと限界）

Reddit r/artificial

langchain-tests==1.1.7 の変更点

LangChain Releases

表現の曲率が大規模言語モデルの行動上の不確実性を調整する

要点

関連記事

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

ADAMオプティマイザーの収束証明の改良

デモではなく実際に稼働する――自律的にビジネスを回すAIを作った（YC出資、学びと限界）

langchain-tests==1.1.7 の変更点

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer