LLMの不確実性と正確性は同じ特徴によって符号化されているのか？スパースオートエンコーダによる機能的分離

arXiv cs.LG / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルの出力における不確実性と、実際の正しさが同じ内部メカニズムによって制御されているのか、それとも別の特徴群によって生じているのかを検証する。
研究では「正しさ×確信度」の2×2の枠組みを提案し、スパースオートエンコーダを用いて不確実性と誤りに関連する特徴を独立に抽出する。
Llama-3.1-8BとGemma-2-9Bの実験から、「純粋な不確実性」特徴は精度にとって重要だが、「純粋な誤り」特徴は抑制しても精度がほぼ変わらないことが示される。
不確実性と誤りの両方を符号化する「混線（コンフンド）」特徴は出力品質を損なうため、これらを抑制すると精度が1.1%改善し、エントロピーが75%減少し、ARC-ChallengeとRACEで効果が移転する。
さらに、単一の中間層から抽出した「混線」特徴3つだけで正しさをAUROC約0.79で予測でき、選択的な棄権（abstention）により精度を62%から81%へ、カバレッジ53%で引き上げられることを示す。