適切なステップに適切にクレジットを:視覚生成のための目的に応じたプロセス最適化
arXiv cs.CV / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、視覚生成モデルに対するGRPOのような強化学習が、複数目的(画質、モーション整合性、テキスト整合性)を扱う際に報酬のクレジット割り当てが粗すぎる点が根本的な限界だと指摘しています。
- 従来のパイプラインでは複数の報酬モデルを単一の静的なスカラーにまとめ、拡散の全タイムステップへ一様に信号を伝播することが多く、段階ごとに異なる役割を無視しています。
- それに対し、Objective-aware Trajectory Credit Assignment(OTCA)を提案し、復元(denoising)の各ステップにおける相対的な重要度を分解しつつ、拡散過程の途中で複数報酬を適応的に重み付けして組み合わせます。
- OTCAは「時間的(タイムステップ)なクレジット」と「目的(objective)レベルのクレジット」を共同でモデル化し、拡散ベースの反復的な生成に合う形で粗い報酬監督をタイムステップ対応の学習信号へ変換すると述べています。
- 論文の実験では、OTCAが評価指標において画像生成・動画生成の両方の品質を一貫して改善したと報告されています。