視覚自己回帰モデルにおけるマスク付きロジット・ナッジングを用いたプロンプト誘導画像編集
arXiv cs.CV / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、ソース画像を編集対象と無関係な領域を保持しながら、ターゲット文プロンプトに合わせて変更するための、視覚自己回帰モデルにおけるプロンプト誘導画像編集を扱います。
- Masked Logit Nudgingを提案し、固定されたソースのトークン符号化をログitに変換して、ソースとターゲットのプロンプトから定義される意味的な軌道に沿って予測を目標方向へ「ナッジ」します。
- 編集は、ソースプロンプトと編集(ターゲット)プロンプト間のクロスアテンション差分を利用する専用のマスキング手法によって得られた空間マスクの範囲にのみ適用されます。
- 定量化誤差を補正し、再構成品質を向上させる改良(リファインメント)も追加しています。
- PIEベンチマークで512px/1024pxの両解像度において最良の画像編集性能を報告し、さらにCOCOやOpenImagesでも前手法を上回り、拡散モデルと同等以上の性能をより高速に達成できると示しています(コードはGitHubで公開)。



