因果分解による大規模言語モデルのための頑健な報酬モデリング
arXiv cs.CL / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、応答の長さや過度に迎合的なトーンといった紛らわしい手がかりへの依存を減らす、報酬モデリングのための因果分解アプローチを提案する。
- 入力(プロンプト)から得られる潜在的な意図埋め込みに、候補となる回答を写像するデコーダを学習し、再構成誤差を追加の学習シグナルとして用いて報酬モデルを正則化する。
- 著者らは、再構成誤差シグナルがプロンプト依存の情報を強調し、プロンプト非依存の近道(ショートカット)を抑制することを理論的に正当化している。
- 数学・有用性・安全性のベンチマークにまたがる実験により、本手法は候補選択の振る舞いを改善し、より短く、かつ迎合的ではない候補を選ぶ精度として0.877を達成する。
- このシグナルをGemma-2-2B-itおよびGemma-2-9B-itの報酬モデル学習に統合すると、RewardBenchの精度が0.832から0.868に向上し、Best-of-Nの勝率も改善する。さらに、制御されたリライト・ドリフトのテスト下でも頑健性を維持する。
