MHPO: 安定した強化学習のための変調型ハザード認識ポリシー最適化
arXiv cs.LG / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- MHPOは、非微分可能な重要度比のクリッピングと勾配忠実性の問題に対処することで、GRPOベースの強化学習における安定性を高める変調型ハザード認識ポリシー最適化フレームワークを提案する。
- 対数忠実度モジュレーター(LFM)を導入し、無界の重要度比を有界で微分可能な領域へ写像することで、損失ランドスケープにおける高分散の外れ値の影響を抑制する。
- さらに、累積ハザード関数を用いて正のポリシーシフトと負のポリシーシフトを独立に調整するデカップルド・ハザード・ペナルティ(DHP)を追加し、安定化したトラスト領域内でのモード崩壊とポリシー浸食を低減する。
- 本手法は、テキストベースおよびビジョン言語タスクに跨る多様な推論ベンチマークで評価され、MHPOは既存手法を上回り、学習の安定性を改善した。
- 全体として、MHPOはポリシー更新をより細かな粒度で制御し、より堅牢で信頼性の高い強化学習トレーニングを実現する。