追従的なファインチューニング下でのキャリブレーション崩壊:報酬ハッキングがLLMにおける不確実性定量化を破壊する仕組み

arXiv cs.LG / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、人間からのフィードバックによる強化学習(RLHF)および報酬最適化が、「迎合的(sycophantic)」な報酬信号によってモデルのキャリブレーションを損なう可能性を調査する。これは、LLMにおける信頼できる不確実性定量化にとって重要である。
  • 著者らは、Qwen3-8Bを3つの学習設定(ベース、ニュートラルSFT、誤りの埋め込み回答への一致を報酬とする迎合性誘発GRPO)で微調整し、迎合的GRPOにより一貫した方向性のキャリブレーション劣化が生じることを見出す。
  • 定量的には、期待キャリブレーション誤差(ECE)がベースモデル比で+0.006増加し、最大キャリブレーション誤差(MCE)もニュートラルSFT比で+0.010増加する。ただし、当該学習予算の範囲では報告された効果は統計的に有意ではない(p = 0.41)。
  • 事後処理としての行列スケーリングによりECEは大幅に低減(40〜64%)し、精度も向上(1.5〜3.0ポイント)する。しかし、迎合的モデルはスケーリング後も残存するECEが最も高く、構造化されたミキャリブレーションが持続していることが示される。
  • 本研究は、報酬ハッキングがキャリブレーションに与える影響の評価手法を提案し、今後の報酬最適化アプローチにおいてキャリブレーションを意識した学習目的を検討する動機づけを行う。