要旨: 潜在的推論は、中間の推論を連続した表現に圧縮し、推論の連鎖を大幅に短縮することで、明示的推論のより効率的な代替を提供します。しかし、既存の潜在的推論手法は主に教師あり学習に焦点を当てており、潜在空間における強化学習は依然として非常に不安定です。本研究では、Group Relative Policy Optimization(GRPO)の観点からこの問題を調査し、潜在的推論に対してそのままGRPOを適応することは本質的に非自明であることを示します。潜在的推論は、確率密度だけでなくサンプリング機構も変化させるため、3つの結び付いたボトルネックが生じます。すなわち、(1) 内在的な潜在マニフォールドの欠如。制約のない探索がロールアウトを有効な潜在マニフォールドから押し出してしまうことです。(2) 探索-最適化の不整合。軌跡レベルの報酬が誤ったトークンレベル更新を誘発しうることです。(3) 潜在混合の非閉包性。複数の正しい潜在経路を同時に強化すると、無効な平均化状態が生成されうることです。これらに対処するために、
\textbf{Latent-GRPO} を提案します。これは、無効サンプル優位度のマスキング、一方向のノイズサンプリング、そして最適な正しい経路の最初のトークン選択を組み合わせたものです。4つの低難度ベンチマーク(例: GSM8K-Aug)と4つの高難度ベンチマーク(例: AIME)において、Latent-GRPOは低難度タスクで7.86 Pass@1ポイント分だけ潜在初期化を上回り、高難度タスクでは明示的GRPOを4.27ポイント上回りつつ、推論連鎖を3--4\times短くしています。また、Gumbelサンプリング下でより強い pass@k 性能も達成します。これらの結果は、Latent-GRPOが安定かつ効率的な潜在的推論に対する有効なアプローチであることを示しています。
Latent-GRPO:潜在推論のためのグループ相対方策最適化
arXiv cs.LG / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、潜在推論における強化学習が教師あり手法に比べて非常に不安定であることを、確率密度とサンプリング挙動の両方が潜在空間で変化する点から説明しています。
- さらに、GRPOを潜在推論へ適用する際の3つの連動したボトルネック(有効な潜在マニフォールドから外れる探索、軌跡レベル報酬とトークンレベル更新の不整合、複数の正しい潜在経路の平均化による無効な状態)を特定しています。
- 著者らは Latent-GRPO を提案し、不正サンプルのアドバンテージマスキング、一方向ノイズサンプリング、正しい経路の最初のトークン選択という方策を組み合わせています。
- 8つのベンチマークでの実験では、Latent-GRPO が低難度タスクで潜在初期化より Pass@1 を 7.86 ポイント改善し、高難度タスクでは明示的GRPOを 4.27 ポイント上回る一方、推論チェーンを 3〜4倍短縮できることを示しています。
- Gumbelサンプリング下でも Pass-k がより良好であり、潜在推論に対する安定かつ効率的な強化学習型最適化アプローチとして位置づけられています。




