SPPO: 長期ホライズン推論タスクのためのシーケンスレベルPPO
arXiv cs.AI / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、標準的なトークンレベルPPOが、長期ホライズンの思考過程(CoT)推論において不安定になる理由を扱う。そこでは時間的なクレジット割当が難しく、価値モデルのメモリコストが過剰になり得る。
- 推論をシーケンスレベルの文脈付きバンディットとして捉え直し、分離されたスカラー価値関数を用いて低分散のアドバンテージを計算することで、Sequence-Level PPO(SPPO)を提案する。
- SPPOは、PPOのサンプル効率を維持しつつ更新の安定性を高めるよう設計されており、GRPOのようなクリティック非使用の代替手法に共通する多重サンプリングやベースライン推定のオーバーヘッドを回避する。
- 数学的ベンチマークでの実験により、SPPOが標準PPOを上回り、計算量が多いグループベース手法と同等の性能に到達しつつ、より良いリソース効率を示すことが分かる。
- 全体として、SPPOは、特に長期ホライズン設定において、検証可能な報酬に基づいて推論LLMを整合させるためのスケーラブルな学習アプローチを提供する。




