単一生成からの推論LLM向け教師なし信頼度キャリブレーション

arXiv cs.LG / 2026/4/22

📰 ニュースModels & Research

共有:

要点

この論文は、推論LLMにおける信頼性の重要な課題、すなわち実運用に必要な「校正済みの信頼度（confidence）」を適切に出せない点に取り組んでいます。
提案手法は、推論時に1回の生成しか使えない状況でも動作する教師なしの信頼度キャリブレーションを目指し、ラベル付きデータや推論時の反復サンプリングを不要にします。
手法では、ラベルなしデータでオフラインのサンプリングを行って自己一貫性ベースの代理目標を作り、それを軽量な信頼度予測器へ蒸留します。
数学・質問応答の5タスク、推論モデル9種にわたる評価で、ベースラインを大きく上回り、分布シフト下でも頑健性が示されています。
校正された信頼度は、選択的予測や意思決定を模した下流タスクなどの用途で性能向上につながります。

要旨: 推論言語モデルはますます複雑な課題を解くことができますが、信頼できる導入に必要な較正済みの信頼度（confidence）推定値を生成することに苦労しています。既存の較正手法は通常、ラベルに依存するか、推論時に繰り返しサンプリングを行うため、多くの状況では実用的ではありません。本稿では、推論時に単一の生成しか利用できない場合に、推論LLMの教師なし信頼度較正を行う方法を提案します。提案手法は、ラベルなしデータに対するオフライン・サンプリングを用いて自己整合性（self-consistency）に基づく代理目標を導出し、その信号を軽量な導入時向け信頼度予測器へと蒸留します。9つの推論モデルを用いた、5つの数学および質問応答タスクにまたがる広範な評価では、本手法は分布外シフト下を含むベースラインを大幅に上回り、選択的予測（selective prediction）およびシミュレーションに基づく下流の意思決定において下流性能を向上させます。