PhysEdit:適応的な時空間推論により物理整合性と領域認識を実現する画像編集

arXiv cs.CV / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、画像編集の指示は種類ごとに必要な空間範囲と推論の深さが異なるため、既存の推論ベースエディタには空間軸と時間軸の両方で推論を適応させる仕組みが欠けていると主張しています。
  • PhysEditは、推論時に追加する2つのモジュール(Complexity-Adaptive Reasoning Depth:CARD と Spatial Reasoning Mask:SRM)で領域認識を行う画像編集フレームワークで、バックボーンの再学習なしで構成できるとしています。
  • CARDは指示と参照画像から編集の複雑さを予測し、サンプルごとに推論ステップ数と推論トークン長を条件付きで割り当てることで、固定スケジュールの推論を条件付き計算へ変えます。
  • SRMは指示に条件付けたクロスアテンションから空間事前分布を作り、意味的に必要な領域に推論を限定することで、どこで計算を使うかを制御します。
  • ImgEdit Basic-Edit Suite(737ケース)で、PhysEditは壁時計時間を1.18×短縮しつつ指示遵守もわずかに改善し、アイデンティティ保持はノイズ内で一致すると報告しており、外観レベル編集では最大1.52×の向上が見られます。

要旨: 画像編集の指示は異質です。色の置換、物体の挿入、物理アクションの編集はすべて、必要とされる空間的なカバレッジと推論の深さが異なります。しかし、既存の推論ベースのエディタは、すべての指示に対して単一の固定された推論レシピを適用しています。我々は、空間軸と時間軸の両方における適応性が、欠けている自由度であると主張し、この原理に基づいて構築された編集フレームワーク PhysEdit を提示します。PhysEdit は、バックボーンの再学習なしで合成可能な2つの推論時モジュールを導入します。中核となるのは、(1) 複雑度適応型推論深度(CARD)です。CARD は指示文と参照画像から編集の複雑度を直接予測し、サンプルごとに推論ステップ数 N_r と推論トークン長 r を割り当てます。これにより、従来固定だった推論スケジュールを条件付き計算問題へと変換します。CARD はさらに、(2) 空間推論マスク(SRM)によって支えられます。SRM は交差注意に基づき、指示に条件付けされた空間的な事前分布を抽出し、意味的に推論が必要な領域に推論を閉じ込めます。737 ケースからなる ImgEdit 基本編集スイート全体において、PhysEdit は強力な推論ベースラインに対して 1.18x の壁時計速度向上(1サンプルあたり 64.3s 対 76.1s)を達成し、同時に指示追従をわずかに改善します(CLIP-T 0.2283 対 0.2266、+0.7%)。また、ノイズの範囲内で同一性の保持も一致します(CLIP-I 0.8246 対 0.8280)。速度向上はカテゴリ依存であり、見た目レベルの編集では 1.52x に到達します。これにより、効率向上の主な要因が CARD による適応的な割り当てであることが検証されます。完全なアブレーションを含む 30 サンプルのパイロットにより、各モジュールの寄与が切り分けられます。