概要: 生成モデルの最近の進展により画像編集の能力は大きく向上しましたが、正確で直感的なユーザ制御を維持することはいまだに難しいままです。具体的には、ユーザはしばしば、正確な空間レイアウトと特定の意味的詳細の両方を同時に伝えることに苦労します。自然言語による指示は、質感や色のような高レベルな意味は効果的に伝えられる一方で、空間の厳密さには欠けます。逆に、手描きの落書きはおおまかな空間境界を示せるものの、詳細な視覚的属性を表現できません。その結果、正確な制御を実現するには、両方のモダリティを組み合わせる必要があります。しかし、既存のモデルは、専門的な訓練データが不足しているため、テキストとともに抽象的な落書きを同時に解釈することに苦戦しています。
本研究では、このギャップを埋めるために自然言語指示と手描きの落書き入力を組み合わせ、より正確で制御可能な編集を可能にする、大規模合成データセット「ScribbleEdit」を提案します。私たちは、合成パイプラインによってこのデータセットを構築します。このパイプラインでは、インペインティングにより自動的にソース画像とターゲット画像のペアを生成し、それらを人が描いた落書きとVLMが生成したテキスト指示と組み合わせます。ScribbleEditを用いて、拡散ベースおよび自己回帰型の統一マルチモーダル画像編集モデルの両方を評価し、微調整します。実験の結果、既製のモデルは抽象的な落書き入力ではうまく機能しない一方で、合成データセットで微調整すると、空間的に整合した意味的に一貫した編集を生成する能力が大幅に向上することが分かりました。
ScribbleEdit:手書きの落書き(シブリング)とテキストによる画像編集のための合成データ
arXiv cs.CV / 2026/5/5
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、画像編集では「正確な空間レイアウト」と「詳細な意味(セマンティクス)」の両方をユーザーが指定する必要がある一方で、自然言語と手書きの落書き(シブリング)だけではそれらを十分に補えず、制御が難しいと主張しています。
- ScribbleEditという大規模な合成データセットを提案し、人が描いたシブリングとVLMが生成したテキスト指示を組み合わせて、両モダリティを同時に解釈できるようモデルを訓練する狙いです。
- データセットは、インペインティングにより自動でソース画像とターゲット画像の組を生成する合成パイプラインで構築し、その上でシブリングとテキストを紐づけます。
- 実験では、市販(そのまま)の統合型マルチモーダル画像編集モデルは抽象的なシブリング入力に弱い一方、ScribbleEditで微調整することで、編集結果の空間整合性と意味整合性が改善されることを示しています。
- この研究では、拡散ベースと自己回帰ベースの両方の統合型マルチモーダル画像編集モデルを、提案データセットで評価・微調整しています。




