広告

大規模言語モデルにおける信頼できる真実整合型の不確実性推定に向けて

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの不確実性推定(UE)指標が幻覚を確実に検出できない理由を調査し、その不安定さを「プロキシ失敗(proxy failure)」、すなわち指標が事実の正しさではなくモデルのふるまいを反映してしまうことに帰しています。
  • UE指標は情報量が少ない状況では弁別不能になり得ることを示し、それが信頼できる信頼性評価に対する有用性を制限する点を明らかにしています。
  • これに対処するため、著者らは事後(post-hoc)のキャリブレーション手法であるTruth AnChoring(TAC)を導入し、生のUEスコアを「真実整合型(truth-aligned)」の不確実性スコアへ対応付けます。
  • 実験の結果、TACはノイズのある少数ショットの教師データでも、十分にキャリブレーションされた不確実性推定を生成できること、ならびに実用的なキャリブレーション手順を示すことが示されています。
  • 本研究は、ヒューリスティックなUE指標を真実の不確実性の直接的な指標として扱うべきではないと主張し、TACをLLMに対するより信頼できるUEへの一歩として位置付けます。あわせてコードリポジトリも提供しています。

Abstract

不確実性推定(UE)は、大規模言語モデル(LLM)の幻覚的な出力を検出し、その信頼性を向上させることを目的としています。しかし、UEの指標は構成(コンフィギュレーション)によってしばしば不安定な性能を示し、そのことが適用可能性を大きく制限しています。本研究では、この現象をプロキシ失敗(proxy failure)として形式化します。というのも、ほとんどのUE指標はLLM出力の事実としての正しさに明示的に根拠づけられるのではなく、モデルの振る舞いに由来するためです。これにより、UEの指標は情報量が少ない領域において、ちょうど識別力を失う(非判別的になる)ことを示します。これを緩和するために、Truth AnChoring(TAC)を提案します。TACは、事後(post-hoc)の校正手法であり、生のスコアを真理に整合したスコアへと写像することで、UE指標を修復します。ノイズのある少数ショットの教師あり学習(few-shot supervision)であっても、私たちのTACは十分に校正された不確実性推定の学習を支援でき、実用的な校正プロトコルを提示します。本研究の結果は、ヒューリスティックなUE指標を「真理の不確実性」の直接的な指標として扱うことの限界を強調しており、TACを、LLMに対するより信頼性の高い不確実性推定へ向けた必要なステップとして位置づけます。コードリポジトリは https://github.com/ponhvoan/TruthAnchor/ で利用可能です。

広告