Entropy Alone is Insufficient for Safe Selective Prediction in LLMs

arXiv cs.CL / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 言語モデルのハルシネーションによる危害を減らすために、選択的予測(不確実な高リスク時に回答を棄権)を行う仕組みと、棄権判断に用いられる不確実性推定の評価の不足が指摘されています。
  • エントロピーだけに基づく不確実性手法には、モデル依存の失敗モードがあり、棄権行動が信頼できない挙動になり得ることを論文は明らかにしています。
  • その対策として、エントロピーに「正しさのプローブ(correctness probe)」の信号を組み合わせることで、棄権性能を改善できると提案しています。
  • TriviaQA・BioASQ・MedicalQAの3ベンチマークと4系統のモデルで、結合スコアはエントロピー単独よりリスク—カバレッジ特性やキャリブレーションを総じて向上させたと報告されています。
  • 不確実性手法は、狙ったリスク水準で運用できるかどうかを直接反映する指標で、デプロイを見据えた評価が重要だと結論づけています。

概要: 選択的予測システムは、高リスクなケースで回答を控えることで、言語モデルの幻覚(hallucinations)に起因する害を軽減できます。そのようなケースを特定するために不確実性定量化(uncertainty quantification)の手法がしばしば用いられますが、より広い選択的予測ポリシーの文脈や、それが低い目標誤り率で動作できる能力の観点では、評価されることは稀です。私たちは、エントロピーに基づく不確実性手法のモデル依存の失敗モードを特定し、それが信頼性のない控え(abstention)挙動につながることを示します。そして、その問題に対して、エントロピースコアを正確性(correctness)のプローブ信号と組み合わせることで対処します。3つのQAベンチマーク(TriviaQA、BioASQ、MedicalQA)および4つのモデルファミリーにわたって、結合スコアは一般に、エントロピーのみのベースラインと比べて、リスク--カバレッジのトレードオフとキャリブレーション性能の両方を改善することを確認しました。私たちの結果は、不確実性手法を実運用(deployment)を見据えて評価することの重要性を示しており、システムが所定のリスク水準で動作できると信頼できるかどうかを直接反映する指標を用いる必要があります。