推論トラップ：閉じたシステムのマルチステップLLM推論に関する情報理論的上限

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、閉じたシステムのマルチステップLLM推論—特に、エージェント同士が相互に出力を反復的に改変するマルチエージェント・ディベート—では、回答の正確さは保たれても、その背後にある推論の忠実性（evidenceへの整合）が低下し得ると論じています。
そのための枠組みとして、与えられた証拠に対して原子的な主張を照合するSFS（Supported Faithfulness Score）を提案し、分解者不変の順位付け（Spearman rho = 1.0）も報告しています。
EGSR（Evidence-Grounded Socratic Reasoning）では、対立的な議論（adversarial debate）の代わりに証拠に基づく問い返しを用いることで、推論の忠実性を回復できると主張しています。
中心となる理論は、Markov鎖の仮定のもとでデータ処理不等式（DPI）により、証拠Eと後続出力O^{t+1}の相互情報量が増えないことを示す定理1であり、これが「推論トラップ」を形式化しています。
SciFactとFEVERでの実験では、DebateCVはベースライン精度の88%を保つ一方でSFSが大きく低下し（多数決型MADではSFSが崩壊）、EGSRは98%まで回復するとされています。さらに別の研究では、忠実性指標の人間側の較正が言語・領域をまたぐと不安定になり得ることが示唆されています。

概要: 同一の言語モデルのコピーに議論を促すと、異なる視点が生まれるのではなく、ある視点の多様な言い回しが生成される。マルチエージェントによる議論（MAD）や、より広くはエージェントが互いの出力を反復的に変換するクローズドシステムの推論は、答えの正確さは保ちやすい一方で、その答えに至る推論は劣化させがちである。我々はこのマルチエージェントの場合を「Debate Trap（議論の罠）」、より広い現象を「Reasoning Trap（推論の罠）」と名付け、証拠に基づく推論の失敗に関する手続き的な理論を提示する。この枠組みは3つの部分からなる: (i) SFS（Supported Faithfulness Score: 支持された忠実性スコア）。分解された原子的主張が与えられた証拠に照らして整合するかを検証する主張レベルの指標（decomposer-invariant ranking: Spearman rho=1.0）。(ii) EGSR（Evidence-Grounded Socratic Reasoning: 証拠に基づくソクラテス的推論）。敵対的な議論を、証拠に基づく探究に置き換える。(iii) 定理1（DPI境界）: 標準的なMADのもとで、連鎖 E -> O^0 -> O^1 -> ... はマルコフであり、データ処理不等式により E[I(E;O^{t+1})] <= E[I(E;O^t)] が成り立つ。我々は補助的な3つの結果――オープンシステムの回復（定理2）、EGSRの蓄積（補題2）、投票集約の下限（命題1）――により、Eとの情報理論的な関係にもとづいて、複数ステップのLLM推論を分解する。SciFact（300主張）とFEVER（1,000主張）に対する16の条件において、DebateCV（C13）はベースライン精度の88%を維持する一方でSFSは43%低下する。多数決MAD（C15）はSFSをベースラインの1.7%まで低下させる（p < 10^{-6}, d = -0.96）。EGSRは98%回復する。R6のコホート研究（韓国 n=10x30 FEVER; 英語 n=3x200 SciFact）では、評定者間のFleissのカッパが <= +0.018、また言語と領域をまたいだ際の評定者内のLikertスコアのシフトが0.8〜1.4であることが分かる。つまり、忠実性メトリクスが較正されるべきだとされる人間の合意自体が、それほど安定していない。反証可能な予想を1つ提示する: 定理1のマルコフ構造を保存するあらゆるクローズドシステムの推論プロトコルは、期待値のもとで同じDPIの境界の影響を受ける。