AI Navigate

Astrolabe: 蒸留済み自己回帰ビデオモデルのための前向きプロセス強化学習の推進

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

要点

  • Astrolabeは、蒸留済み自己回帰ビデオモデルに特化したオンラインで効率的な強化学習フレームワークであり、人間の視覚的嗜好との整合性を高めることを目的とするが、再蒸留のコストやソルバー連携の逆過程最適化を必要としない。
  • 前向きプロセス強化学習の定式化として、ネガティブ認識付きファインチューニングと呼ばれる手法を導入し、推論エンドポイントで直接の正例/負例サンプル対比を用いて、逆過程の展開を伴わずにポリシー改善を導く。
  • ローリングKVキャッシュを備えたストリーミング訓練スキームにより、長尺動画の整合性をスケーラブルに実現し、局所クリップ窓内でのみRLを更新しつつ、長距離の一貫性を維持するために前の文脈を条件付ける。
  • 報酬ハッキングに対抗するため、複数報酬の目的関数と不確実性を考慮した選択的正則化および動的参照更新を組み合わせており、実験により、複数の蒸留済み自己回帰(AR)ビデオモデルで生成品質が向上することが示されている。

要旨: 蒸留された自己回帰(AR)動画モデルは、効率的なストリーミング生成を可能にしますが、しばしば人間の視覚的嗜好とずれてしまいます。
既存の強化学習(RL)フレームワークはこれらのアーキテクチャには自然には適しておらず、通常、高価な再蒸留またはソルバー結合の逆過程最適化を必要とし、それが多くのメモリと計算のオーバーヘッドをもたらします。
私たちは蒸留された AR モデルに特化した効率的なオンライン RL フレームワーク Astrolabe を提示します。
既存のボトルネックを克服するため、負例を意識したファインチューニングに基づく前方過程 RL の定式化を導入します。
推論エンドポイントで正例と負例のサンプルを直接対比することにより、このアプローチは逆過程の展開を必要とせず、暗黙のポリシー改善の方向性を確立します。
この整合性を長編動画へ拡張するため、ローリング KV キャッシュを介してシーケンスを順次生成するストリーミング学習方式を提案します。局所クリップウィンドウのみに RL 更新を適用し、長距離の一貫性を保証するために事前の文脈を条件付けします。
最後に、報酬のハッキングを緩和するため、不確実性を考慮した選択的正則化と動的参照の更新によって安定化された多報酬目的を組み込みます。
広範な実験により、私たちの手法が複数の蒸留 AR 動画モデルに対して生成品質を一貫して向上させることを示し、堅牢でスケーラブルな整合性解として機能します。」} <| endoftext |>