LLMの不確実性と正確性は同じ特徴によって符号化されているのか?スパースオートエンコーダによる機能的分離

arXiv cs.LG / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルの出力における不確実性と、実際の正しさが同じ内部メカニズムによって制御されているのか、それとも別の特徴群によって生じているのかを検証する。
  • 研究では「正しさ×確信度」の2×2の枠組みを提案し、スパースオートエンコーダを用いて不確実性と誤りに関連する特徴を独立に抽出する。
  • Llama-3.1-8BとGemma-2-9Bの実験から、「純粋な不確実性」特徴は精度にとって重要だが、「純粋な誤り」特徴は抑制しても精度がほぼ変わらないことが示される。
  • 不確実性と誤りの両方を符号化する「混線(コンフンド)」特徴は出力品質を損なうため、これらを抑制すると精度が1.1%改善し、エントロピーが75%減少し、ARC-ChallengeとRACEで効果が移転する。
  • さらに、単一の中間層から抽出した「混線」特徴3つだけで正しさをAUROC約0.79で予測でき、選択的な棄権(abstention)により精度を62%から81%へ、カバレッジ53%で引き上げられることを示す。