エントロピー推移の形状がLLMの推論信頼性を予測する：思考過程における不確実性ダイナミクスの診断的研究

arXiv cs.CL / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究はエントロピー推移の単調性を定義し、各推論ステップごとに回答分布のエントロピーが減少する必要があることを示す。さらに、各ステップで少数の回答完成をサンプリングすることで、単調性を持つチェーンがGSM8KのQwen2.5-7B-Instructで68.8%の正確度を達成する一方、非単調性チェーンは46.8%にとどまる。
全体のエントロピー減少量は予測力を持たないことを示しており、エントロピー減少の『形状（単調性）』が重要で、減少量の程度よりも単調な減少の有無が重要であるという形状優位の効果を示している（rho = -0.06, p = 0.31）。
単調性違反の回数（0/1/2）に渡って、正確度は68.8%→50.8%→28.6%とスケールし、厳格な単調性が性能を強化することを浮き彫りにしている。
単調性は73.7%のカバレッジで+5.8ポイントの利得をもたらし、コスト効果が高い。1問あたり約1,500トークンを要し、40チェーン自己整合性の費用のおよそ8分の1に相当する。
Mistral-7B (n=300) で再現され、単調チェーンは72.3%に達し、非単調は37.6%（+34.7ポイント; OR=4.33）となり、この現象がモデル間で一般化することを示唆している。

要約：Chain-of-thought（CoT）推論はLLMの精度を高めますが、欠陥を低コストで検出することは依然として難しい。私たちは、推論の各ステップを通じた不確実性ダイナミクスの形状—各ステップでいくつかの回答の完成をサンプリングして捉えられるもの—が正確さを予測するかを研究します。

エントロピートラジェクトリの単調性を導入します：連鎖は各ステップで回答分布のエントロピーがすべてのステップで減少する場合に単調です。Qwen2.5-7B-Instructを用いたGSM8K（n=300）では、単調な連鎖は68.8%の精度を達成するのに対し、非単調な連鎖は46.8%でした（＋21.9pp；Fisherのp=0.0005；OR=2.50）。

重要なのは、総エントロピーの低下自体が予測力を持たないことです（ρ=-0.06、p=0.31）、形状優位の解離を示しており：各ステップでエントロピーが減少するかどうかが重要であり、どれだけ減少するかではありません。違反回数0/1/2は68.8%/50.8%/28.6%の精度を与えます。

トークン対数確率の信頼度はステップ深さとともに較正で悪化します（ECE：0.186→0.312）、単調性は73.7%のカバレッジで+5.8ppを達成し、約1,500トークン/問題でスカラー系ベースラインを上回ります—40チェーン自己一貫性のコストの1/8です。Mistral-7B（n=300）でも再現され、単調な連鎖は72.3%、非単調は37.6%（+34.7pp、OR=4.33）。

不確実性軌跡の構造的特性は、総計測定よりも情報量が多いことが示されています。

返却形式： {"translated": "翻訳されたHTML"}

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

GIGAZINE

エントロピー推移の形状がLLMの推論信頼性を予測する：思考過程における不確実性ダイナミクスの診断的研究

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer