WeEdit：テキスト中心の画像編集のためのデータセット、ベンチマーク、およびグリフ誘導型フレームワーク

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

共有:

要点

WeEditは、テキスト中心の画像編集のためのスケーラブルなデータ構築パイプライン、2つのベンチマーク、および適合した2段階トレーニング戦略を提示します。
HTMLベースの自動編集パイプラインを新たに導入し、約330,000のトレーニングペアを15言語にわたって生成し、画像内の多言語テキスト編集を可能にします。
本フレームワークは、グリフ誘導型の監督付きファインチューニングを用いて明示的な空間的および内容の事前情報を注入し、続いて多目的の強化学習段階を通じて指示遵守、テキストの明確さ、背景の保持を改善します。
このアプローチは、テキスト中心の画像編集モデルの包括的評価のための標準化されたバイリンガルおよび多言語ベンチマークを提供します。
実験は、WeEditが多様な編集操作において従来のオープンソースモデルを明確な差で上回ることを示しています。

指示に基づく画像編集は、ユーザー提供の指示に従って既存の画像内の特定の内容を変更し、非ターゲット領域を保持することを目的とします。従来の物体・スタイル中心の操作を超えて、テキスト中心の画像編集は画像に埋め込まれたテキスト要素の修正・翻訳・再配置に焦点を当てます。しかし、既存の先端モデルは複雑なテキスト編集を正確に実行することが難しく、しばしばぼやけた文字や幻出した文字を生成します。これらの失敗は、テキスト中心の編集に特化した学習パラダイムの欠如と、閉ループ型のトレーニングと評価システムに必要な大規模データセットおよび標準化されたベンチマークの欠如に主因があると考えられます。これらの限界に対処するため、WeEditを提示します。スケーラブルなデータ構築パイプライン、2つのベンチマーク、および適合した2段階のトレーニング戦略を含む体系的な解決策です。具体的には、HTMLベースの新たな自動編集パイプラインを提案します。これにより、約330,000のトレーニングペアを、さまざまな編集操作と15言語にわたって生成し、包括的な評価のための標準化されたバイリンガルおよび多言語ベンチマークを併せて提供します。アルゴリズムの面では、明示的な空間的および内容の先行情報を注入するためにグリフ誘導型の監督付きファインチューニングを用い、その後、生成を指示遵守、テキストの明確さ、背景の保持と一致させるための多目的強化学習段階を適用します。広範な実験により、WeEditは多様な編集操作において従来のオープンソースモデルを明確な差で上回ることが示されています。