LeapAlign：2ステップ軌道を構築して、生成ステップの任意のタイミングでポスト学習フロー整合モデルを行う

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、フロー整合モデルを人間の嗜好に合わせるために、生成過程を通じて報酬勾配を直接逆伝播する微調整手法「LeapAlign」を提案している。
長いODE軌道にわたる直接逆伝播は、メモリコストの増大や勾配爆発により現実的でなく、最終画像の大域的な構造を決める初期生成ステップへの更新が難しいことが示される。
LeapAlignでは、長い軌道を「2ステップ」の連続するリープに圧縮し、各リープが複数のODEサンプリングステップをスキップしながら未来の潜在表現を1ステップで予測する。
リープの開始・終了時刻をランダム化し、長い生成経路との一貫性に応じて学習重みを調整しつつ、大きすぎる勾配項の重みを抑えることで、生成ステップの任意のタイミングで安定かつ効率的な更新を可能にする。
Fluxモデルを微調整した実験では、LeapAlignが既存のGRPOベースおよび直接勾配法よりも、画像品質と画像—テキスト整合の両面で優れた性能を示す。