VeloEdit: 速度場分解による訓練不要の一貫性と連続性を備えた指示ベース画像編集

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

要点

  • VeloEditは、速度場をソース内容を保持する成分と編集成分に分割することで、編集されていない領域の一貫性を維持する訓練不要の指示ベース画像編集手法を提示します。
  • ソース内容を保持する速度場と望ましい編集を推進する速度場との差異を測定することで、編集領域を自動的に特定し、変更が発生する場所をターゲットを絞って制御できるようにします。
  • 本手法は、編集速度をソース復元速度に置換することで保存領域の一貫性を保証し、速度補間によってターゲット領域での編集強度を連続的に調整できるようにします。
  • Flux.1 Kontext および Qwen-Image-Edit を用いた実験は、視覚的一貫性と編集の連続性がほとんど追加計算コストを要さずに向上することを示し、コードはGitHubで公開されています。

要旨: 指示ベースの画像編集は、テキスト指示に従って元の内容を変更することを目指します。しかし、フロー整合に基づく従来の手法は、ノイズ除去によって生じる再構成誤差のため非編集領域の一貫性を維持するのが難しく、保存された内容がずれる原因となります。さらに、編集強度を細かく制御することは通常不足しています。これらの制限に対処するため、トレーニング不要の手法であるVeloEditを提案します。これにより、高い一貫性と連続的に制御可能な編集を実現します。VeloEditは、元の内容を保持する速度場と、望ましい編集を推進する速度場との間のずれを定量化することにより、編集領域を動的に識別します。この分割に基づき、保存領域の一貫性を、編集速度を元の内容を復元する速度に置換することによって担保し、速度補間によってターゲット領域の編集強度を連続的に調整できるようにします。複雑なアテンション操作や補助的な訓練可能モジュールに依存する従来の手法とは異なり、VeloEditは速度場そのもの上で直接動作します。Flux.1 Kontext および Qwen-Image-Edit に関する広範な実験は、VeloEditが視覚的一貫性と編集の連続性を、追加の計算コストをほとんど伴わずに改善することを示しています。コードは https://github.com/xmulzq/VeloEdit で利用可能です。