RLHFにおける分布ロバストなトークン最適化

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、トークン単位のRLHFと分布ロバスト最適化（DRO）を組み合わせたDistributionally Robust Token Optimization（DRTO）を提案し、少量のプロンプト差や分布シフトによって起きる大きな失敗を低減する。
DRTOは、損失ミニバッチに対するf-divergenceの曖昧集合（ambiguity set）を用いることで、トークン単位の報酬の最悪ケースを抑える理論的ロバスト性を提供する。
数学的推論ベンチマークでの実験により、分布シフト下での一貫性が改善されており、GSM8Kで9.17%、MathQAで2.49%の向上が報告されている。
本手法は、標準的なRLHFの学習シグナルのみに頼るのではなく、トークンレベルで最適化することで、複数ステップの推論の信頼性を狙う。
これらの結果は、実運用においてユーザ入力が学習分布からわずかに逸脱する場合に、DRTO型の頑健な最適化が実用上のLLM性能を改善し得ることを示唆している。

Abstract

大規模言語モデル（LLM）は、自らが学習・微調整されたデータと整合するプロンプトに対して、概ね正しく応答する傾向があります。しかし、語句・形式・言語にわずかな変更が加わるだけで、特に複数ステップの推論問題では、驚くほど大きな失敗が引き起こされることがあります。この問題に対処するために、本研究では、分布的に頑健なトークン最適化（Distributionally Robust Token Optimization; DRTO）というアプローチを提案します。DRTOは、人間のフィードバック（RLHF）に基づくトークン単位の強化学習と、分布的に頑健な最適化（DRO）を組み合わせます。DRTOは、損失ミニバッチ上でf-発散（f-divergence）の曖昧さ集合を構成することで、最悪ケースのトークン単位の報酬に上界（バウンド）を与え、理論的な頑健性を実現します。実験的に、DRTOは数学的推論ベンチマークにおける分布シフト下での一貫性を高め、GSM8Kで9.17\%の改善、MathQAで2.49\%の改善を達成しました。