要約:Chain-of-thought(CoT)推論はLLMの精度を高めますが、欠陥を低コストで検出することは依然として難しい。私たちは、推論の各ステップを通じた不確実性ダイナミクスの形状—各ステップでいくつかの回答の完成をサンプリングして捉えられるもの—が正確さを予測するかを研究します。
エントロピートラジェクトリの単調性を導入します:連鎖は各ステップで回答分布のエントロピーがすべてのステップで減少する場合に単調です。Qwen2.5-7B-Instructを用いたGSM8K(n=300)では、単調な連鎖は68.8%の精度を達成するのに対し、非単調な連鎖は46.8%でした(+21.9pp;Fisherのp=0.0005;OR=2.50)。
重要なのは、総エントロピーの低下自体が予測力を持たないことです(ρ=-0.06、p=0.31)、形状優位の解離を示しており:各ステップでエントロピーが減少するかどうかが重要であり、どれだけ減少するかではありません。違反回数0/1/2は68.8%/50.8%/28.6%の精度を与えます。
トークン対数確率の信頼度はステップ深さとともに較正で悪化します(ECE:0.186→0.312)、単調性は73.7%のカバレッジで+5.8ppを達成し、約1,500トークン/問題でスカラー系ベースラインを上回ります—40チェーン自己一貫性のコストの1/8です。Mistral-7B(n=300)でも再現され、単調な連鎖は72.3%、非単調は37.6%(+34.7pp、OR=4.33)。
不確実性軌跡の構造的特性は、総計測定よりも情報量が多いことが示されています。
返却形式: {"translated": "翻訳されたHTML"}

