BiFM:少ステップの画像編集・生成のための双方向フローマッチング

arXiv cs.CV / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、順方向プロセスの近似が弱い場合に品質を向上させる、少ステップの画像編集と生成のための統一フレームワークであるBiFM(Bidirectional Flow Matching)を提案する。
  • BiFMは、共有される瞬間速度の制約のもとで、画像→ノイズ方向とノイズ→画像方向の両方における速度場を推定することで、単一モデルで生成と反転(inversion)を学習する。
  • 双方向整合性の目的と、学習を安定化するための軽量な時間区間埋め込みを用いた、連続時間区間の教師信号(supervision)を採用する。
  • 双方向の定式化により、一段(one-step)の反転が可能となり、一般的な拡散/フローマッチングのバックボーンに統合できる。実験では、既存の少ステップ手法に比べて性能と編集可能性が向上することが示されている。
  • 本アプローチは、事前学習済みの生成器に依存し、かつ多くの先行する少ステップ反転手法が必要とする補助モジュールを用いないことで、スケーラビリティと汎化性を高めることを目指している。

Abstract

近年の拡散およびフローマッチングモデルは、反復サンプリングによってノイズを段階的に除去することで、画像生成および編集において強力な能力を示してきました。これにより、意味を保ったままの編集のための柔軟な反転が可能になりますが、少数ステップのサンプリング手法では順伝播プロセスの近似が不十分になり、その結果、編集品質が低下します。既存の少数ステップ反転手法は、しばしば事前学習済みの生成器や補助モジュールに依存しており、異なるアーキテクチャ間でのスケーラビリティや汎化性が制限されています。これらの制約に対処するため、生成と反転を単一のモデル内で共同学習する統一的枠組みであるBiFM(Bidirectional Flow Matching)を提案します。BiFMは、「image \to noise」と「noise \to image」の両方向において平均速度場を直接推定し、そこでは事前に定義されたスケジュールまたは事前学習済みのマルチステップ拡散モデルのいずれかに由来する共有の瞬時速度場によって制約されます。さらにBiFMは、双方向の整合性目的によって安定化され、軽量な時刻間(time-interval)埋め込みを用いる、連続時間区間に対する教師信号による新しい学習戦略を導入します。この双方向の定式化により、1ステップ反転も可能になり、一般的な拡散およびフローマッチングのバックボーンにシームレスに統合できます。多様な画像編集および生成タスクにおいて、BiFMは既存の少数ステップ手法を一貫して上回り、より高い性能と編集可能性を実現します。