エントロピー推移の形状がLLMの推論信頼性を予測する:思考過程における不確実性ダイナミクスの診断的研究

arXiv cs.CL / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究はエントロピー推移の単調性を定義し、各推論ステップごとに回答分布のエントロピーが減少する必要があることを示す。さらに、各ステップで少数の回答完成をサンプリングすることで、単調性を持つチェーンがGSM8KのQwen2.5-7B-Instructで68.8%の正確度を達成する一方、非単調性チェーンは46.8%にとどまる。
  • 全体のエントロピー減少量は予測力を持たないことを示しており、エントロピー減少の『形状(単調性)』が重要で、減少量の程度よりも単調な減少の有無が重要であるという形状優位の効果を示している(rho = -0.06, p = 0.31)。
  • 単調性違反の回数(0/1/2)に渡って、正確度は68.8%→50.8%→28.6%とスケールし、厳格な単調性が性能を強化することを浮き彫りにしている。
  • 単調性は73.7%のカバレッジで+5.8ポイントの利得をもたらし、コスト効果が高い。1問あたり約1,500トークンを要し、40チェーン自己整合性の費用のおよそ8分の1に相当する。
  • Mistral-7B (n=300) で再現され、単調チェーンは72.3%に達し、非単調は37.6%(+34.7ポイント; OR=4.33)となり、この現象がモデル間で一般化することを示唆している。

要約:Chain-of-thought(CoT)推論はLLMの精度を高めますが、欠陥を低コストで検出することは依然として難しい。私たちは、推論の各ステップを通じた不確実性ダイナミクスの形状—各ステップでいくつかの回答の完成をサンプリングして捉えられるもの—が正確さを予測するかを研究します。

エントロピートラジェクトリの単調性を導入します:連鎖は各ステップで回答分布のエントロピーがすべてのステップで減少する場合に単調です。Qwen2.5-7B-Instructを用いたGSM8K(n=300)では、単調な連鎖は68.8%の精度を達成するのに対し、非単調な連鎖は46.8%でした(+21.9pp;Fisherのp=0.0005;OR=2.50)。

重要なのは、総エントロピーの低下自体が予測力を持たないことです(ρ=-0.06、p=0.31)、形状優位の解離を示しており:各ステップでエントロピーが減少するかどうかが重要であり、どれだけ減少するかではありません。違反回数0/1/2は68.8%/50.8%/28.6%の精度を与えます。

トークン対数確率の信頼度はステップ深さとともに較正で悪化します(ECE:0.186→0.312)、単調性は73.7%のカバレッジで+5.8ppを達成し、約1,500トークン/問題でスカラー系ベースラインを上回ります—40チェーン自己一貫性のコストの1/8です。Mistral-7B(n=300)でも再現され、単調な連鎖は72.3%、非単調は37.6%(+34.7pp、OR=4.33)。

不確実性軌跡の構造的特性は、総計測定よりも情報量が多いことが示されています。

返却形式: {"translated": "翻訳されたHTML"}