キャリブレーションされたLLM推論の信頼度マージンに対するプロセス監督

arXiv cs.LG / 2026/4/28

📰 ニュースModels & Research

要点

  • この論文は、LLMの推論において「回答の正しさ」と「信頼度推定の信頼性」の両方を最適化するための、強化学習ベースの枠組み(RLCM)を提案します。
  • 結果ベースの報酬がモデルの過度な自信(オーバーコンフィデンス)を助長し得るのに対し、RLCMは1つの推論軌跡の中で正しい手順と誤った手順を「信頼度マージン」によって分離することを促します。
  • 数学・コード・論理・科学の各ベンチマークで、キャリブレーションが大幅に改善されつつ、精度は維持または向上することが示されています。
  • さらに、キャリブレーションされた信頼度シグナルにより、コンフォーマルリスク制御の効率化や、信頼度に重み付けした集約の有効化につながることを実証します。

Abstract

強化学習(RL)によるテスト時計算のスケーリングは、大規模言語モデル(LLM)の推論能力を向上させるための信頼性の高い道筋として注目を集めています。しかし、結果に基づく報酬はしばしばモデルに過度な確信を促し、その結果として幻覚、確信に基づく制御の信頼性の低下、そして不必要な計算資源の割り当てにつながります。私たちは、Reinforcement Learning with Confidence Margin(\textbf{RLCM})を提案します。これは、間接的な予算内完了(intermediate-budget completions)に対するマージン強化プロセス報酬を通じて、正しさと確信の信頼性を同時に最適化する、校正(calibration)に配慮したRLフレームワークです。確信を正解らしさに合わせるのではなく、RLCMは単一の推論軌跡(reasoning trajectory)内で、正しいステップと誤ったステップの間における確信のマージンを広げることを促します。数学、コード、論理、科学の各ベンチマークにおいて、私たちの手法は、精度を維持または向上させながら、校正を大幅に改善します。さらに、校正された確信シグナルを用いることで、得られたモデルが、より効率的なコンフォーマルリスク制御(conformal risk control)と、有効な確信重み付き集約(confidence-weighted aggregation)を可能にすることを示します。