LLMは言語的な自信(verbal confidence)をどのように計算するのか
arXiv cs.CL / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、LLMが「言語的な自信」のトークンを生成する仕組みを調査し、*いつ*自信が計算されるのか(生成中にキャッシュされるのか、必要なときに都度計算されるのか)と、*それが内部的に何を表すのか*(単純なトークンの対数確率なのか、回答の質をより豊かに表す表現なのか)という両面を扱う。
- Gemma 3 27BおよびQwen 2.5 7Bでの実験(activation steering、patching、noising、swap testsを含む)により、著者らは、回答生成中に自信が計算され、その後の参照のためにキャッシュされるという証拠を見いだす。
- 本研究は、自信に関する情報がまず回答に隣接する隠れ状態に現れ、回答直後の早い位置に保存され、その後モデルが言語化された自信を出力する際に取り出されることを示す。
- 注意のブロッキング実験は情報の流れを特定し、自信は言語化の場所で独立に再構成されるのではなく、回答トークンから集められることを示唆する。
- 線形プロービングおよび分散の分解により、キャッシュされた表現が、トークンの対数確率以上の「言語的な自信」における分散のかなりの部分を説明できることが明らかになり、言語的な自信がキャリブレーションやLLMのメタ認知に関わる洗練された自己評価メカニズムであるという見方を支持する。




