概要: 強化学習による検証可能な報酬(Reinforcement Learning with Verifiable Rewards, RLVR)は、大規模言語モデル(LLMs)の推論能力において大きな進歩をもたらしてきました。しかし、探索と活用(エクスプロイト)のトレードオフを効果的に管理することは、依然として重要な課題です。本論文では、学習中における極めて難しいサンプルと容易なサンプルの探索・活用ジレンマを完全に解析し、新たなきめ細かなトレードオフ機構を提案します。具体的には、サンプル空間を、探索(高いパープレキシティ)と活用(低いパープレキシティ)という異なるサブ空間に分割するパープレキシティ空間の非相関化(disentangling)戦略を導入し、それによって探索・活用トレードオフを必要とする、よりきめ細かなサンプルを採掘します。さらに、検証報酬への影響を最小限に抑えながら、パープレキシティに導かれた探索と活用を実現するための双方向の報酬配分機構を提案し、より安定した方策最適化を可能にします。最後に、本手法を数学的推論と関数呼び出しという2つの主流タスクで評価し、実験結果により提案手法の優位性が示されます。これにより、きめ細かな探索・活用トレードオフを通じてLLMの性能を向上させる有効性が確認されます。
DiPO:微細な探索—活用(エクスプロイト)トレードオフのための、分離されたパープレキシティ方策最適化(Disentangled Perplexity Policy Optimization)
arXiv cs.LG / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLM に対する RLVR における重要な課題として、訓練中の探索と活用のバランスを「非常に難しい」サンプルと「簡単な」サンプルの間でどのように取るかに焦点を当てる。
- 探索と活用のよりきめ細かなトレードオフを実現するために、パープレキシティ空間での分離戦略を用いた DiPO を提案する。具体的には、サンプルを高パープレキシティ(探索)と低パープレキシティ(活用)に分け、それぞれを異なるサブスペースに割り当てる。
- さらに DiPO は、検証報酬(verification reward)の破壊的な影響を最小限に抑えつつ、パープレキシティに基づく探索と活用を導くための双方向の報酬配分メカニズムを導入する。
- 数学的推論や関数呼び出しなどの代表的なタスクでの実験により、従来手法に比べて、より改善された安定した方策最適化と優れた性能が示される。