SteerFlow:忠実な反転(インバージョン)ベースの画像編集のための整流されたフローの操舵

arXiv cs.CV / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存手法よりもソースの忠実度を高める、モデル非依存の枠組みである SteerFlow を提案する。SteerFlow は、テキストに導かれた反転ベースの画像編集において忠実性を確保する。
  • SteerFlow の順方向(forward)段階では、償却(アモータイズ)された固定小数点ソルバを用いて生成軌道を整流する。具体的には、各タイムステップ間で速度整合性を強制することで、より高忠実度な反転潜在表現を得る。
  • 後方向(backward)段階では、軌道補間(Trajectory Interpolation)を導入する。編集用の速度とソース再構成用の速度を適応的にブレンドし、編集を元画像にアンカーし続けることで、ドリフトを低減する。
  • 背景をより適切に保持するために、SteerFlow は適応型マスキング(Adaptive Masking)を追加する。これは、コンセプトに導かれたセグメンテーションと、ソースとターゲット間の速度差を用いて、編集信号を空間的に制約する。
  • FLUX.1-dev と Stable Diffusion 3.5 Medium での実験では、先行手法に比べて編集品質が一貫して向上することを報告しており、またドリフトを蓄積させずにマルチターン編集を行えることも示している。

要旨: フローベースの生成モデルにおける最近の進歩により、画像をその潜在ノイズに反転して、別の目標条件ガイダンスのもとで再生成することで、学習なしのテキスト誘導による画像編集が可能になりました。しかし既存手法では、ソースの忠実性を保つことが難しいという課題があります。高次ソルバは追加のモデル推論を要し、反転を途中で打ち切ると編集可能性が制約され、特徴注入手法はアーキテクチャ転移性に欠けます。これらの制限に対処するため、我々は SteerFlow を提案します。これは、ソース忠実性に関する強い理論的保証を備えた、モデル非依存の編集フレームワークです。順伝播プロセスでは、連続するタイムステップ間で速度整合性を強制することで、前向きの軌道を暗黙に整える Amortized Fixed-Point Solver を導入し、高忠実度の反転潜在を得ます。逆伝播プロセスでは、目標編集とソース再構成の速度を適応的にブレンドし、編集軌道がソースに固定され続けるようにする Trajectory Interpolation を導入します。背景の保持をさらに改善するために、概念ガイダイドのセグメンテーションとソース・ターゲット間の速度差に基づいて、編集信号を空間的に制約する Adaptive Masking 機構も導入します。FLUX.1-dev と Stable Diffusion 3.5 Medium 上での大規模な実験により、SteerFlow が既存手法よりも一貫してより高い編集品質を達成することを示します。最後に、SteerFlow は、ドリフトが蓄積することなく、複雑なマルチターン編集パラダイムにも自然に拡張できることを示します。