LLMはどのように自己の誤りを検出・訂正するのか:内部の信頼度シグナルの役割
arXiv cs.LG / 2026/4/27
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、自己の誤り検出・自己訂正を、選択した応答と異なる可能性を持つ評価用シグナルを備える「2階層(second-order)信頼度」フレームワークで説明する。
- 既に報告されているポストアンサー改行(PANL)の信頼度表現が、言語的な自信以上の機能を持ち、誤り検出と自己訂正を支えるかを検証する。
- verify-then-correctの枠組みによる結果では、言語的な自信がトークンの対数確率よりもはるかに正確に誤り検出を予測し、一次(first-order)説を退ける。
- PANLの活性は、言語的な自信そのものを超えて誤り検出を予測し、さらに「どの誤りを修正できるか」まで予測できることが示される。
- Gemma 3 27B と Qwen 2.5 7B、そして TriviaQA と MNLI の複数設定で再現され、LLMが「誤りそうか」だけでなく「直せるか」も符号化する内部の2階層信頼度アーキテクチャを自然に実装していることを示唆する。




