CLIPO: ポリシー最適化における対照学習がRLVRを一般化する

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

RLVR は報酬として最終結果のみに依存しており、過程レベルの誤りやモデルの推論の幻覚を招く可能性がある。
CLIPO は成功したロールアウトに対して作用する対照学習目的を導入し、正しい推論経路間で不変な構造を学習させ、単一路監視よりも強力な跨軌道正則化を提供する。
このアプローチはステップレベルの推論の不整合を緩和し、幻覚を抑制することで、LLMs のポリシー最適化における一般化と頑健性を向上させる。
実験では、CLIPO は多様な推論ベンチマークにわたり RLVR のベースラインを一貫して改善しており、著者はコードとトレーニング手法を GitHub で提供している。

本文: arXiv:2603.10101v1 公表タイプ: cross 要旨: RLVR（検証可能な報酬を用いた強化学習）は、LLMs の推論能力を大きく向上させた。しかし、RLVR は最終回答のみを結果報酬として依存しており、中間の推論ステップの正確性を無視している。これらの過程が正しくないが結果として正しいロールアウトを学習すると、幻覚や回答のコピーを引き起こし、モデルの一般化と頑健性を著しく損なう。これに対処するため、Policy Optimization (CLIPO) に対照学習機構を組み込み、RLVR のプロセスを一般化する。成功したロールアウトに対して対照学習損失を最適化することで、CLIPO は正しい推論経路間で共有される不変な構造を捉えるよう LL Ms を導く。これにより、RLVR の元の単一路監督よりも跨軌道正則化がより堅牢になり、ステップレベルの推論の不整合を効果的に緩和し、幻覚的アーティファクトを抑制する。実験では、CLIPO は多様な推論ベンチマークに渡って複数の RLVR ベースラインを一貫して改善し、LLMs のポリシー最適化の一般化と頑健性を均一に向上させることを示した。我々のコードとトレーニングレシピは https://github.com/Qwen-Applications/CLIPO で入手可能である。

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

GIGAZINE

CLIPO: ポリシー最適化における対照学習がRLVRを一般化する

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer