RLHFにおける分布ロバストなトークン最適化
arXiv cs.AI / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、トークン単位のRLHFと分布ロバスト最適化(DRO)を組み合わせたDistributionally Robust Token Optimization(DRTO)を提案し、少量のプロンプト差や分布シフトによって起きる大きな失敗を低減する。
- DRTOは、損失ミニバッチに対するf-divergenceの曖昧集合(ambiguity set)を用いることで、トークン単位の報酬の最悪ケースを抑える理論的ロバスト性を提供する。
- 数学的推論ベンチマークでの実験により、分布シフト下での一貫性が改善されており、GSM8Kで9.17%、MathQAで2.49%の向上が報告されている。
- 本手法は、標準的なRLHFの学習シグナルのみに頼るのではなく、トークンレベルで最適化することで、複数ステップの推論の信頼性を狙う。
- これらの結果は、実運用においてユーザ入力が学習分布からわずかに逸脱する場合に、DRTO型の頑健な最適化が実用上のLLM性能を改善し得ることを示唆している。




