AI Navigate

大規模言語モデル推論における観測可能信念改訂のα法則

arXiv cs.AI / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、指示チューニングされたLLMが候補解の確率割り当てを修正する際に機能する乗法的スケーリング規則としてのα法則を特定する。これは信念改訂指数によってパラメータ化される。
  • 漸近的安定性を反復的な改訂の下で満たすには、指数値が1未満であることが必要かつ十分であることを証明している。
  • GPQA Diamond、TheoremQA、MMLU-Pro、ARC-Challenge からの合計4,975問、およびモデルファミリー(GPT-5.2と Claude Sonnet 4)に対する実証評価は、単一ステップの改訂が安定性境界をわずかに超える程度で、ほぼベイズ更新に近い挙動を示す。
  • 複数ステップの改訂では、指数は時間とともに減少し、理論的安定性予測と一致する収縮的長期ダイナミクスを生み出す。
  • トークンレベルの検証は、Llama-3.3-70B およびアーキテクチャ特有の信頼比パターン(GPT-5.2 が事前情報と証拠のバランスを取るのに対し、Claude は新しい証拠を優先する)を用いて、対数確率と自己申告信頼度の両方に渡ってこの現象を実証しており、本研究はα法則をLLM推論システムの更新の安定性と推論品質を監視するための原理的な診断手法として位置づけている。

概要:
連続的に出力を改訂する大規模言語モデル(LLMs)は、思考の連鎖(chain-of-thought推論)、自己内省、あるいは複数エージェント間のディベートといったメカニズムを介して確率更新の安定性に関して原則的な保証を欠く。
我々は、命令調整済みのLLMが候補回答に対する確率割り当てを改訂する方法を規定する、一貫した乗法的スケーリング法則を特定する。これは、更新時に既存の信念と検証証拠がどのように組み合わされるかを制御する信念改訂指数として表現される。
この指数の値が1未満であることが、反復的な改訂の下で漸近的安定性に対して必要かつ十分であることを理論的に示す。
4,975問に及ぶ大学院レベルのベンチマーク(GPQA Diamond、TheoremQA、MMLU-Pro、ARC-Challenge)と複数のモデルファミリ(GPT-5.2と Claude Sonnet 4)を横断した実証評価は、ほぼベイズ的な更新挙動を示し、単一步の改訂で安定性境界のやや上方で動作するモデルが見られる。
ただし、複数ステップの実験では、指数が連続する改訂を経るごとに小さくなることが示され、理論的安定性予測と一致する収縮的な長期ダイナミクスを生み出す。
Llama-3.3-70Bを用いたトークンレベルの検証は、対数確率の測定と自己申告された信頼度の推定の両方において、同様の挙動をさらに確認する。
更新成分の分析は、アーキテクチャ固有の信頼比のパターンを露呈し、GPT-5.2 は事前信念と証拠の間でバランスの取れた重み付けを示す一方、Claude は新しい証拠をやや重視する。
本研究は内部のベイズ推論ではなく、観察可能な推論時の更新挙動を特徴づけ、LLM推論システムにおける更新の安定性と推論品質を監視するための原則的な診断手段として、{\alpha}-law を導入する。