スカラーを超えて:幾何学的進行と安定性を用いたLLM推論の評価と理解

arXiv cs.AI / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • TRACEDは、従来のスカラー確率の代わりに幾何運動学を用いてLLM推論を評価する新しいフレームワークです。
  • 推論のトレースをProgress(変位)とStability(曲率)に分解して、推論が時間とともにどのように展開するかを明らかにします。
  • 著者らは、正しい推論は高い進行と安定した軌道を生み出す傾向がある一方、幻覚は低い進行と不安定なパターン(大きな曲率変動を伴う停滞した変位)に対応すると指摘しており、これらは Hesitation Loops(ためらいループ)と Certainty Accumulation(確信の蓄積)として説明されます。
  • 確率的TRACEDフレームワークは、多様なベンチマークにおいて競争力のある性能と向上した頑健性を実現しており、幾何学と認知の橋渡しをLLMsに示しています。
要旨:スカラー確率によるLLMの信頼性評価は、推論の構造的ダイナミクスを捉えることがしばしばできません。我々はTRACEDを導入します。これは理論的に根拠づけられた幾何学的運動学を通じて推論の品質を評価するフレームワークです。推論のトレースをProgress(変位)とStability(曲率)に分解することにより、明確なトポロジー的分岐を示します。正しい推論は高い進行と安定した軌道として現れ、一方幻覚は低い進行と不安定なパターン(大きな曲率変動を伴う停滞した変位)で特徴づけられます。これらの特徴を活用することで、私たちの確率的フレームワークは多様なベンチマークで競争力のある性能と卓越した頑健性を達成します。重要なのは、TRACEDが高曲率を「Hesitation Loops」、変位を「Certainty Accumulation」に対応づけることで、幾何学と認知を結ぶ橋渡しを行い、機械的思考の内部ダイナミクスを解読する物理的レンズを提供する点です。