要旨: 大規模言語モデル(LLM)は、不承認(棄権)を行う方が安全な状況において、しばしば確信に満ちた誤答を生成します。しかし標準的な評価プロトコルは回答を要求し、リスク許容度が異なるもとで自信が意思決定をどのように導くべきかを考慮しません。このギャップに対処するために、棄権を考慮した意思決定をどれだけうまく支えるかを評価する意思決定論的指標である、Behavioral Alignment Score(BAS)を導入します。BASは、明示的な「解答または棄権」の効用モデルから導出され、リスクしきい値の連続体にわたって実現された効用を集約することで、確信の大きさと順序の両方に依存する、意思決定レベルの信頼性を測ります。理論的に、真実の確信度推定が期待BAS効用を唯一最大化することを示し、較正(キャリブレーション)と意思決定に最適な振る舞いの間を結びます。BASは、log loss(対数損失)のような適切なスコアリングルール(proper scoring rules)に関連していますが、構造的に異なります。log lossは過小確信と過大確信を対称に罰しますが、BASは非対称な罰則を課し、過信による誤りの回避を強く優先します。次に、BASをECEやAURCなどの広く用いられている指標と併用して、複数のLLMとタスクにわたる自己申告の確信信頼性のベンチマークを構築します。結果は、意思決定に役立つ確信には大きなばらつきがあることを示しています。さらに、より大きく、より正確なモデルほど高いBASを達成する傾向はあるものの、最先端モデルでさえ深刻な過信に陥りやすいことが分かります。重要なのは、ECEやAURCが類似していても、過信による誤りが非常に強い場合にはBASが大きく異なり得るという点で、標準的な指標の限界が明らかになることです。加えて、top-kの確信度エlicitation(引き出し)や事後的較正(post-hoc calibration)のような単純な介入によって、確信の信頼性を有意に改善できることを示します。総じて、本研究はLLMの確信信頼性を評価するための、原理に基づく指標と包括的なベンチマークの両方を提供します。
BAS:大規模言語モデルの信頼度を評価するための意思決定論的アプローチ
arXiv cs.CL / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、報告されたLLMの信頼度が、リスク閾値の異なる状況において“棄権(abstention)を意識した”意思決定を支えるかどうかを評価するための、意思決定論的メトリクスであるBehavioral Alignment Score(BAS)を提案する。
- BASは、明示的な「解答または棄権」の効用モデルから導出され、リスク嗜好(risk preferences)の幅にわたって期待される実現効用を集約することで、信頼度の大きさだけでなくその順序にも敏感である。
- 著者らは理論的に、真実の信頼度推定が期待BAS効用を一意に最大化することを示し、キャリブレーションを意思決定に最適な振る舞いと結び付けるとともに、過信による誤りをより強く抑止する非対称的なペナルティを提案する。
- BASと、ECEやAURCのような一般的な指標を用いてベンチマークを構築したところ、モデルやタスク間で大きなばらつきが見られ、最先端のモデルであっても深刻な過信を起こしうることが示される。
- 本研究は、標準的な指標が意思決定上致命的な失敗を見落とし得ることを見出す。すなわち、ECE/AURCが似ていてもBASは大きく異なり得る。また、top-kによる信頼度の引き出し(confidence elicitation)や事後キャリブレーション(post-hoc calibration)といった介入により、信頼度の信頼性を改善できることを実証する。



