SEAL:大規模ステッカータグ付きデータセットを用いた、意味理解ベースの単一画像ステッカーのパーソナライズ手法

arXiv cs.CV / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、既存の拡散モデルのU-Netバックボーンを変更せずに、単一の参照画像からステッカーをパーソナライズするための、プラグアンドプレイ型の適応モジュールSEALを提案します。
  • SEALは、単一画像のテスト時微調整で起きやすい失敗である「視覚的もつれ(背景が学習概念に吸収される)」と「構造的硬直(参照画像特有の空間配置を記憶してしまい、文脈操作が効かなくなる)」を、埋め込み適応時の意味/空間および構造上の制約で抑えることを狙います。
  • 埋め込み適応では、(1) 意味ガイド付き空間アテンション損失、(2) スプリット・マージのトークン戦略、(3) 構造に応じたレイヤ制限の3要素を用います。
  • 属性レベルの制御と体系的な評価のために、著者らはStickerBenchを提示します。6つの属性(外観、感情、動作、カメラ構図、スタイル、背景)で構造化タグ付けされた大規模ステッカーデータセットです。
  • 実験では、SEALがアイデンティティ保持を改善しつつ文脈の制御可能性も維持できることが示され、コードとデータセットは公開予定とされています。

要旨: 拡散ベースのパーソナライズされたテキストから画像生成において、単一の参照画像から目標コンセプトを合成することは困難です。特に、プロンプトに明示的な属性編集が必要となるステッカーのパーソナライズではこの課題が顕著です。参照が1枚しかない場合、テスト時微調整(TTF)手法はしばしば過学習に陥り、その結果として extit{視覚的な絡み合い} が生じます。これは、背景のアーティファクトが学習されたコンセプトに取り込まれてしまう現象です。さらに extit{構造的な硬直性} も起き、モデルが参照固有の空間的な配置を記憶してしまい、文脈に対する制御可能性を失います。これらの問題に対処するために、我々は extbf{SE}mantic-aware single-image sticker person extbf{AL}ization( extbf{SEAL})を提案します。SEALは、既存のパーソナライズのワークフローに組み込めるプラグアンドプレイ型で、アーキテクチャ非依存の適応モジュールです。U-Netベースの拡散バックボーンを修正することなく統合できます。SEALは、埋め込み(embedding)適応の際に3つのコンポーネントを適用します:(1) 意味(セマンティクス)に導かれた空間注意損失、(2) 分割・統合トークン戦略、(3) 構造を意識した層の制限。属性レベルでの制御を備えたステッカー領域のパーソナライズを支援するために、我々は StickerBench を提示します。StickerBench は、6つの属性スキーマ(外観、感情、行動、カメラ構図、スタイル、背景)のもとで構造化されたタグを持つ、大規模なステッカー画像データセットです。これらの注釈は、対象のアイデンティティを固定したまま文脈を変化させるための一貫したインタフェースを提供し、アイデンティティの切り離しと文脈制御可能性を体系的に評価できるようにします。実験の結果、SEALは、文脈制御可能性を維持しつつ、アイデンティティの保持を一貫して改善することが示されました。これは、テスト時適応において明示的な空間的・構造的制約が重要であることを示しています。コード、StickerBench、プロジェクトページは公開予定です。