視覚自己回帰モデルにおけるマスク付きロジット・ナッジングを用いたプロンプト誘導画像編集

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、ソース画像を編集対象と無関係な領域を保持しながら、ターゲット文プロンプトに合わせて変更するための、視覚自己回帰モデルにおけるプロンプト誘導画像編集を扱います。
Masked Logit Nudgingを提案し、固定されたソースのトークン符号化をログitに変換して、ソースとターゲットのプロンプトから定義される意味的な軌道に沿って予測を目標方向へ「ナッジ」します。
編集は、ソースプロンプトと編集（ターゲット）プロンプト間のクロスアテンション差分を利用する専用のマスキング手法によって得られた空間マスクの範囲にのみ適用されます。
定量化誤差を補正し、再構成品質を向上させる改良（リファインメント）も追加しています。
PIEベンチマークで512px/1024pxの両解像度において最良の画像編集性能を報告し、さらにCOCOやOpenImagesでも前手法を上回り、拡散モデルと同等以上の性能をより高速に達成できると示しています（コードはGitHubで公開）。

Abstract

本稿では、視覚的自己回帰モデルにおけるプロンプト誘導型画像編集の問題に取り組む。ソース画像と目標となるテキストプロンプトが与えられたとき、依頼された編集に関係しない領域はすべて保持しつつ、ソース画像を目標プロンプトに従って変更することを目指す。そのために、我々は Masked Logit Nudging を提案する。これは、ソース画像トークンマップを用いて、目標プロンプトの下でのモデルの予測をこれらのソーストークンマップと整合させるためのガイダンス手順を導入する。具体的には、固定されたソースエンコーディングを VAR エンコーディングを用いてロジットに変換し、ソース—目標プロンプトによって定義される意味的な軌跡に沿って、モデルの予測ロジットをターゲットへと押し寄せる。編集は、ソースプロンプトと編集後プロンプトの間のクロスアテンション差分を活用する専用のマスキング手順によって得られる空間マスク内でのみ適用する。さらに、量子化誤差を補正し、再構成品質を向上させる改良も導入する。我々の手法は、PIE ベンチマークにおいて 512px および 1024px の解像度で最良の画像編集性能を達成する。編集にとどまらず、忠実な再構成を提供し、COCO では 512px、OpenImages では 1024px において従来手法を上回る。総じて、我々の手法は VAR 関連アプローチを上回り、拡散モデルと同等、あるいはそれ以上の性能を発揮しながら、はるかに高速である。コードは 'https://github.com/AmirMaEl/MLN' で公開されている。