LLMはどのように自己の誤りを検出・訂正するのか：内部の信頼度シグナルの役割

arXiv cs.LG / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、自己の誤り検出・自己訂正を、選択した応答と異なる可能性を持つ評価用シグナルを備える「2階層（second-order）信頼度」フレームワークで説明する。
既に報告されているポストアンサー改行（PANL）の信頼度表現が、言語的な自信以上の機能を持ち、誤り検出と自己訂正を支えるかを検証する。
verify-then-correctの枠組みによる結果では、言語的な自信がトークンの対数確率よりもはるかに正確に誤り検出を予測し、一次（first-order）説を退ける。
PANLの活性は、言語的な自信そのものを超えて誤り検出を予測し、さらに「どの誤りを修正できるか」まで予測できることが示される。
Gemma 3 27B と Qwen 2.5 7B、そして TriviaQA と MNLI の複数設定で再現され、LLMが「誤りそうか」だけでなく「直せるか」も符号化する内部の2階層信頼度アーキテクチャを自然に実装していることを示唆する。

Abstract

大規模言語モデルは自身の誤りを検出でき、場合によっては外部からのフィードバックなしにそれを修正することもできますが、根本的なメカニズムは未解明です。私たちは意思決定神経科学における「信頼（confidence）」の二次モデルという観点から、この問題を調査します。一次システムでは、信頼は生成信号そのものから得られるため、選択した応答に対して最大となり、誤り検出を妨げます。二次モデルは、コミットされた応答と食い違う可能性のある、部分的に独立した評価（evaluative）信号を仮定し、それが誤り検出の基盤になります。Kumaran ら（2026）は、LLMが答え直後のトークン（すなわち、応答後改行: PANL）に信頼表現をキャッシュしており、それが因果的に言語的信頼を駆動し、対数確率からは解離することを示しました。ここでは、このPANL信号が信頼を越えて誤り検出と自己修正を支えるのかを検証します。具体的には、この信号が誤り検出と自己修正を支えるかどうかを、二次的枠組みから導かれる予測に基づいて検証します。verify-then-correct（検証してから修正）というパラダイムを用いて、次のことを示します：（i）言語的信頼は、トークン対数確率をはるかに超えて誤り検出を予測し、一次的な説明を排除する；（ii）PANL活性は、それ自体の言語的信頼を超えて誤り検出を予測する；そして（iii）PANLは、モデルが修正できる誤りの種類を予測する――そこで、すべての行動指標が失敗する。因果介入により、答えの情報が破壊されてもPANL信号が誤り検出の挙動を救済できることが確認されます。これらの結果は、モデル間（Gemma 3 27B および Qwen 2.5 7B）およびタスク間（TriviaQA および MNLI）で再現されます。これらの知見は、LLMが自然に二次の信頼（confidence）アーキテクチャを実装しており、その内部の評価信号が「答えが間違っている可能性があるかどうか」だけでなく、「モデルがそれを修正するための知識を持っているかどうか」も符号化していることを明らかにします。