LLMの不確実性と正確性は同じ特徴によって符号化されているのか?スパースオートエンコーダによる機能的分離
arXiv cs.LG / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデルの出力における不確実性と、実際の正しさが同じ内部メカニズムによって制御されているのか、それとも別の特徴群によって生じているのかを検証する。
- 研究では「正しさ×確信度」の2×2の枠組みを提案し、スパースオートエンコーダを用いて不確実性と誤りに関連する特徴を独立に抽出する。
- Llama-3.1-8BとGemma-2-9Bの実験から、「純粋な不確実性」特徴は精度にとって重要だが、「純粋な誤り」特徴は抑制しても精度がほぼ変わらないことが示される。
- 不確実性と誤りの両方を符号化する「混線(コンフンド)」特徴は出力品質を損なうため、これらを抑制すると精度が1.1%改善し、エントロピーが75%減少し、ARC-ChallengeとRACEで効果が移転する。
- さらに、単一の中間層から抽出した「混線」特徴3つだけで正しさをAUROC約0.79で予測でき、選択的な棄権(abstention)により精度を62%から81%へ、カバレッジ53%で引き上げられることを示す。




