キャリブレーションされたLLM推論の信頼度マージンに対するプロセス監督
arXiv cs.LG / 2026/4/28
📰 ニュースModels & Research
要点
- この論文は、LLMの推論において「回答の正しさ」と「信頼度推定の信頼性」の両方を最適化するための、強化学習ベースの枠組み(RLCM)を提案します。
- 結果ベースの報酬がモデルの過度な自信(オーバーコンフィデンス)を助長し得るのに対し、RLCMは1つの推論軌跡の中で正しい手順と誤った手順を「信頼度マージン」によって分離することを促します。
- 数学・コード・論理・科学の各ベンチマークで、キャリブレーションが大幅に改善されつつ、精度は維持または向上することが示されています。
- さらに、キャリブレーションされた信頼度シグナルにより、コンフォーマルリスク制御の効率化や、信頼度に重み付けした集約の有効化につながることを実証します。




