LLMは言語的な自信（verbal confidence）をどのように計算するのか

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、LLMが「言語的な自信」のトークンを生成する仕組みを調査し、*いつ*自信が計算されるのか（生成中にキャッシュされるのか、必要なときに都度計算されるのか）と、*それが内部的に何を表すのか*（単純なトークンの対数確率なのか、回答の質をより豊かに表す表現なのか）という両面を扱う。
Gemma 3 27BおよびQwen 2.5 7Bでの実験（activation steering、patching、noising、swap testsを含む）により、著者らは、回答生成中に自信が計算され、その後の参照のためにキャッシュされるという証拠を見いだす。
本研究は、自信に関する情報がまず回答に隣接する隠れ状態に現れ、回答直後の早い位置に保存され、その後モデルが言語化された自信を出力する際に取り出されることを示す。
注意のブロッキング実験は情報の流れを特定し、自信は言語化の場所で独立に再構成されるのではなく、回答トークンから集められることを示唆する。
線形プロービングおよび分散の分解により、キャッシュされた表現が、トークンの対数確率以上の「言語的な自信」における分散のかなりの部分を説明できることが明らかになり、言語的な自信がキャリブレーションやLLMのメタ認知に関わる洗練された自己評価メカニズムであるという見方を支持する。

Abstract

言語的な自信――LLMに対して、自信を数値またはカテゴリとして述べさせること――は、ブラックボックスモデルから不確実性の推定値を抽出するために広く用いられている。だが、LLMが内部でそのようなスコアをどのように生成しているのかは未解明である。本稿では2つの問いに取り組む。第一に、自信がいつ計算されるのか――要求された時点でその場で（just-in-time）計算するのか、それとも回答生成の過程で自動的に計算され、後で参照できるようキャッシュされるのか。第二に、言語的な自信が何を表しているのか――トークンの対数確率（log-probabilities）なのか、それとも回答の質をより豊かに評価するものなのか。Gemma 3 27BとQwen 2.5 7Bに焦点を当て、キャッシュされた参照（cached retrieval）を支持する収束的な証拠を提示する。活性化スティアリング（activation steering）、パッチ適用（patching）、ノイズ付加（noising）、およびスワップ（swap）実験により、自信の表現は、言語化の出現前にまず回答に隣接する位置で現れることが明らかになる。注意ブロッキング（attention blocking）により情報の流れが特定される。すなわち、自信は回答トークンから集められ、最初の「回答後」の位置でキャッシュされ、その後出力のために取り出される。決定的な点として、線形プロービング（linear probing）と分散分解（variance partitioning）により、これらのキャッシュされた表現が、トークン対数確率を超えて言語的自信のかなりの分散を説明することが示され、単なる流暢さ（fluency）の読み出しではなく、より豊かな回答品質の評価を示唆する。これらの結果は、言語的自信が事後的な再構成（post-hoc reconstruction）ではなく、自動的で洗練された自己評価を反映していることを示しており、LLMにおけるメタ認知（metacognition）の理解やキャリブレーション改善への含意を持つ。