ExpressEdit:Photoshopで拡散モデルを用いて様式化された顔の表情を高速編集する

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 提案論文は、既存のAI画像編集が編集結果にグローバルノイズやピクセルドリフトを生み、プロのワークフローに統合しにくい点を課題として挙げ、これを抑える方式としてExpressEditを紹介しています。
  • ExpressEditはPhotoshop用の完全オープンソースプラグインで、LiquifyなどPhotoshopネイティブ機能と自然に組み合わせながら、単一の一般的なGPUで約3秒という高速な表情編集を実現します。
  • 多様な表情生成を物語ニーズに合わせて行うために、135の「表情タグ」からなる表情データベース(ストーリー例と画像付き)を構築し、検索・補強(RAG)により編集や生成を支援します。
  • コードとデータセットをオープンソース化することで、今後の研究や制作(アーティストの表現探求)を促進することを目的としています。

Abstract

登場人物の表情は、視覚的なストーリーテリングにおける重要な要素です。現在のAI画像編集モデルは、画家が様式化された表情の編集を行う作業を支援する可能性を秘めていますが、これらのモデルは、編集された画像にグローバルなノイズやピクセルのドリフトを持ち込みます。そのため、これらのモデルをプロの画像編集ソフトウェアやワークフローに統合することができません。このギャップを埋めるために、私たちはExpressEditを提案します。ExpressEditは、一般的な専用(プロプライエタリ)画像編集モデルに見られるアーティファクトを回避し、LiquifyのようなPhotoshopネイティブの操作と堅牢に相乗効果を発揮する、完全にオープンソースのPhotoshopプラグインです。ExpressEditは、単一の一般向けGPU上で3秒以内に表情をシームレスに編集でき、人気の専用モデルよりも大幅に高速です。さらに、異なる物語上の要請に応じて多様な表情の生成を支えるために、検索拡張型生成(retrieval-augmented generation)向けに設計された、例となるストーリーと画像を付与した135の表情タグからなる包括的な表情データベースを構築しました。将来の研究や芸術的な探求を促進するために、コードとデータセットをオープンソースとして公開します。