要約: ストリーミング自己回帰 (AR) 動画生成器を数ステップ蒸留と組み合わせることで、低遅延・高品質な合成を実現しますが、人間のフィードバックからの強化学習(RLHF)による整合性を取ることは依然として難しいです。既存のSDEベースのGRPO手法はこの設定で課題に直面します。少数ステップのODEと一貫性モデルのサンプラーは標準的なフロー・マッチングODEから逸脱し、短く低確率性の軌道は初期ノイズに高度に敏感で、中間SDE探索を効果的でなくします。我々はAR-CoPO(AutoRegressive Contrastive Policy Optimization)を提案します。これは、隣接GRPOの対照的な視点をストリーミングAR生成へ適用するフレームワークです。AR-CoPOは、ランダムに選択されたチャンクで近傍候補を構築し、シーケンスレベルの報酬を割り当て、局所的なGRPO更新を実行する分岐機構によるチャンクレベルの整合性を導入します。さらに、オンポリシー探索を参照ロールアウトの再生バッファに対する搾取で補完する半オンポリシー学習戦略を提案し、ドメイン全体で生成品質を向上させます。Self-Forcing に関する実験は、AR-CoPO がベースラインよりもドメイン外の一般化とドメイン内の人間の嗜好整合性の両方を改善することを示し、報酬ハッキングではなく真の整合性の証拠を提供します。
AR-CoPO: 対照的ポリシー最適化による自己回帰型動画生成の整合化
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- AR-CoPO は、ストリーミング型の自己回帰動画生成を対照的ポリシー最適化と整合させるフレームワークを提案し、AR動画合成における RLHF 下の整合性課題に対処します。
- 本手法は、ランダムに選択されたチャンクで近傍候補を構築し、シーケンスレベルの報酬を割り当て、局所的な GRPO 更新を行う、チャンクレベルの整合フォーキング機構を用います。
- 半オンポリシー訓練戦略を取り入れ、オンポリシーによる探索と参照ローアウトのリプレイバッファからの活用を組み合わせて、生成品質を向上させます。
- Self-Forcing における実験は、ベースラインよりもドメイン外での一般化とドメイン内の人間の嗜好整合性を改善することを示し、報酬ハッキングではなく真の整合性の証拠を提供します。