AI Navigate

SparseからDenseへ: Augmented Condition Spaceを用いたT2IフローモデルのためのMulti-View GRPO

arXiv cs.CV / 2026/3/16

💬 オピニオンModels & Research

要点

  • MV-GRPO は、条件空間を条件強化子で拡張して意味的に隣接しつつ多様なキャプションを生成し、T2Iフロー(テキストから画像へのフロー)モデルのための密なマルチビュー報酬マッピングを実現します。
  • このアプローチは、サンプル間の関係性を過小評価しがちな単一ビュー評価の制限を対象とし、アライメント性能の向上を目指します。
  • 新しいキャプションを条件として元のサンプルの確率分布を計算し、これらの信号を高コストなサンプル再生成を必要とせず学習に組み込みます。
  • 実験結果は MV-GRPO が最先端手法と比較して優れたアライメント性能を達成することを示しています。

要約: Group Relative Policy Optimization (GRPO) は、テキストから画像への(T2I)フローモデルにおける嗜好整合のための強力な枠組みとして浮上してきました。ただし、生成サンプルのグループを単一の条件に対して評価する標準的なパラダイムは、サンプル間の関係性の探索不足に悩まされ、整合性の有効性と性能の天井の両方を制約してしまいます。 このようなまばらな単一ビュー評価スキームに対処するため、私たちは Multi-View GRPO (MV-GRPO) を提案します。条件空間を拡張して密な多視点報酬マッピングを作成することで関係探索を強化する新規アプローチです。具体的には、1つのプロンプトから生成されたサンプルのグループに対して、MV-GRPO は柔軟な Condition Enhancer を活用して意味的に隣接しつつ多様なキャプションを生成します。これらのキャプションは、マルチビューのアドバンテージ再推定を可能にし、多様な意味的属性を捉え、より豊かな最適化信号を提供します。これらの新しいキャプションを条件とした元のサンプルの確率分布を導出することにより、高価なサンプル再生成を行うことなく、それらをトレーニングプロセスに組み込むことができます。広範な実験により、MV-GRPO が最先端手法を上回る整合性能を達成することが示されています。