CLIPO: ポリシー最適化における対照学習がRLVRを一般化する

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • RLVR は報酬として最終結果のみに依存しており、過程レベルの誤りやモデルの推論の幻覚を招く可能性がある。
  • CLIPO は成功したロールアウトに対して作用する対照学習目的を導入し、正しい推論経路間で不変な構造を学習させ、単一路監視よりも強力な跨軌道正則化を提供する。
  • このアプローチはステップレベルの推論の不整合を緩和し、幻覚を抑制することで、LLMs のポリシー最適化における一般化と頑健性を向上させる。
  • 実験では、CLIPO は多様な推論ベンチマークにわたり RLVR のベースラインを一貫して改善しており、著者はコードとトレーニング手法を GitHub で提供している。
本文: arXiv:2603.10101v1 公表タイプ: cross 要旨: RLVR(検証可能な報酬を用いた強化学習)は、LLMs の推論能力を大きく向上させた。しかし、RLVR は最終回答のみを結果報酬として依存しており、中間の推論ステップの正確性を無視している。これらの過程が正しくないが結果として正しいロールアウトを学習すると、幻覚や回答のコピーを引き起こし、モデルの一般化と頑健性を著しく損なう。これに対処するため、Policy Optimization (CLIPO) に対照学習機構を組み込み、RLVR のプロセスを一般化する。成功したロールアウトに対して対照学習損失を最適化することで、CLIPO は正しい推論経路間で共有される不変な構造を捉えるよう LL Ms を導く。これにより、RLVR の元の単一路監督よりも跨軌道正則化がより堅牢になり、ステップレベルの推論の不整合を効果的に緩和し、幻覚的アーティファクトを抑制する。実験では、CLIPO は多様な推論ベンチマークに渡って複数の RLVR ベースラインを一貫して改善し、LLMs のポリシー最適化の一般化と頑健性を均一に向上させることを示した。我々のコードとトレーニングレシピは https://github.com/Qwen-Applications/CLIPO で入手可能である。