推論LLMのためのキャリブレーション対応ポリシー最適化

arXiv cs.LG / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、推論LLMに対するGRPO型最適化が相対的キャリブレーションを悪化させ得る理由を分析し、それが不確実性非考慮のアドバンテージ推定に起因しており、最適化の勾配がキャリブレーション目的とずれることを示す。
  • 理論的に裏付けられた整合性および後悔(regret)境界を備えたロジスティックAUCの代理損失を用いることで、不確実性に基づくアドバンテージ推定を可能にするキャリブレーション対応ポリシー最適化(CAPO)を提案する。
  • CAPOは学習を安定化するためのノイズマスキング機構を追加し、同時にキャリブレーションと推論精度を改善する。
  • 数学的推論ベンチマークでの実験では、CAPO-1.5BがGRPOと同等、あるいはそれ以上の精度を維持しつつ最大15%のキャリブレーション改善を報告しており、推論時のスケーリング課題でも最大5%の改善が得られる。
  • モデルが低確信の出力に対して棄権(abstain)を許される場合、CAPOは精度–カバレッジのパレート最適なトレードオフを達成し、幻覚(ハルシネーション)抑制の可能性を示唆する。

推論LLMのためのキャリブレーション対応ポリシー最適化 | AI Navigate