大規模言語モデルにおける信頼できる真実整合型の不確実性推定に向けて
arXiv cs.AI / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMの不確実性推定(UE)指標が幻覚を確実に検出できない理由を調査し、その不安定さを「プロキシ失敗(proxy failure)」、すなわち指標が事実の正しさではなくモデルのふるまいを反映してしまうことに帰しています。
- UE指標は情報量が少ない状況では弁別不能になり得ることを示し、それが信頼できる信頼性評価に対する有用性を制限する点を明らかにしています。
- これに対処するため、著者らは事後(post-hoc)のキャリブレーション手法であるTruth AnChoring(TAC)を導入し、生のUEスコアを「真実整合型(truth-aligned)」の不確実性スコアへ対応付けます。
- 実験の結果、TACはノイズのある少数ショットの教師データでも、十分にキャリブレーションされた不確実性推定を生成できること、ならびに実用的なキャリブレーション手順を示すことが示されています。
- 本研究は、ヒューリスティックなUE指標を真実の不確実性の直接的な指標として扱うべきではないと主張し、TACをLLMに対するより信頼できるUEへの一歩として位置付けます。あわせてコードリポジトリも提供しています。