推論LLMのためのキャリブレーション対応ポリシー最適化

arXiv cs.LG / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、推論LLMに対するGRPO型最適化が相対的キャリブレーションを悪化させ得る理由を分析し、それが不確実性非考慮のアドバンテージ推定に起因しており、最適化の勾配がキャリブレーション目的とずれることを示す。
理論的に裏付けられた整合性および後悔（regret）境界を備えたロジスティックAUCの代理損失を用いることで、不確実性に基づくアドバンテージ推定を可能にするキャリブレーション対応ポリシー最適化（CAPO）を提案する。
CAPOは学習を安定化するためのノイズマスキング機構を追加し、同時にキャリブレーションと推論精度を改善する。
数学的推論ベンチマークでの実験では、CAPO-1.5BがGRPOと同等、あるいはそれ以上の精度を維持しつつ最大15%のキャリブレーション改善を報告しており、推論時のスケーリング課題でも最大5%の改善が得られる。
モデルが低確信の出力に対して棄権（abstain）を許される場合、CAPOは精度–カバレッジのパレート最適なトレードオフを達成し、幻覚（ハルシネーション）抑制の可能性を示唆する。

日経XTECH

日経XTECH

日経XTECH

日経XTECH

日経XTECH