Condition Shifting による自己逆対称(Self-Adversarial)なワンステップ生成

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、フロー・モデルから内部的に condition shifting により敵対的スタイルの補正シグナルを導出することで、ワンステップのテキストから画像生成を改善するための、識別器(discriminator)不要の手法 APEX を提案する。
  • APEX は、速度場(velocity field)がモデルの現在の分布の独立した推定器として働く shifted-condition 分岐を用いる。その結果得られる勾配は理論的に GAN と整合しており、勾配消失を引き起こし得るサンプル依存の識別器項を回避する。
  • 本アプローチは、忠実度・推論速度・学習効率という一般的なワンステップのトレードオフを狙い、外部識別器ベース手法でしばしば見られる不安定性や GPU/メモリのオーバーヘッドを回避しながら安定性を維持する。
  • 実験結果ではワンステップの品質が高いことが示される。報告によれば、0.6B の APEX モデルは FLUX-Schnell 12B を上回り、また Qwen-Image 20B に対する LoRA チューニングでは、NFE=1 で GenEval 0.89 を約 6 時間で達成し、50 ステップの教師モデルに対して同等以上の性能を示す。
  • 枠組みはアーキテクチャを損なわない(architecture-preserving)かつ plug-and-play として説明されており、フルのファインチューニングとパラメータ効率の良い LoRA チューニングの両方をサポートする。コードは GitHub で公開されている。