RLVRの「自信過剰」を直す:推論と校準を分離するDCPO
Zenn / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- RLVR(推論時の“自信過剰”)が、報酬最適化などの学習の都合で誤った確信度になりやすい点を問題設定として述べている
- 推論(reasoning/意思決定)と校準(calibration/確率や信頼度の整合)を分離する方針が、過剰自信の抑制に効くと説明している
- DCPOのように、確信度を作るための校正工程を別枠にして学習・評価することで、出力の“当たり外れ”と“確信度”の紐づけを改善する狙いがある
- 推論の性能だけでなく、確率推定や不確実性表現の品質を設計目標に含めるべきだというメッセージにつながっている
TL;DR
RLVR(GRPOやDAPO)はLLMの推論能力を 크게伸ばすが、同時に深刻な校準退化(Calibration Degeneration)——錯誤答案にたいする過度の自信——を引き起こす
既存の対策(校準目的を損失関数に合成)は効果が薄い。論文はここに根本的な勾配衝突が存在することを数学的に証明した
DCPO(Decoupled Calibration Policy Optimization)は構造・報酬・勾配の三重解耦でこれを回避。GRPOと同等の精度を維持しながら校準誤差を最低にする
追加パラメータなし・追加ネットワークなし・計算オーバーヘッドほぼゼロで実装でき...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →