SwiftPie:ワンステップ拡散による高速な被写体指向の画像パーソナライズ

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • SwiftPieは、従来の手法が遅く計算負荷が高かったため実時間の対話的利用が難しかった課題に対し、被写体に基づく画像パーソナライズを「1ステップ」で実現する拡散手法として提案されます。
  • 本手法では、デュアルブランチのアイデンティティ・インジェクションにより、1ステップ拡散モデル内へ被写体の同一性を効果的に組み込む仕組みが採用されています。
  • さらに、1ステップ内で被写体の文脈理解を高めるために、マスク誘導のリスケーリング戦略を取り入れています。
  • 実験結果では、SwiftPieが個人化画像の生成を高速化しつつ、アイデンティティの忠実性とプロンプト整合性の両面で、複数ステップ手法と同等レベルの性能を達成していることが示されています。
  • この研究は、推論時間を大幅に短縮することで、高品質なパーソナライズ画像生成を対話的なビジュアル合成へ広げる新しい可能性を示しています。

Abstract

拡散モデルは高品質な画像合成において目覚ましい成功を収めており、被写体主導の画像パーソナライズのような画像ガイド生成タスクへの関心を呼び起こしています。印象的なパーソナライズ結果にもかかわらず、既存手法は一般に計算負荷の高い微調整、反復的な最適化、または複数ステップのノイズ除去プロセスに依存しており、これがリアルタイム応用における導入やインタラクティブ性を大きく阻害しています。本研究では、パーソナライズ画像を稲妻のような速さで生成できる最初のワンステップ拡散画像パーソナライズツールであるSwiftPieを提案します。SwiftPieは、被写体のアイデンティティをワンステップ拡散モデルへ効果的に統合する新しいデュアルブランチのアイデンティティ注入メカニズムを導入します。さらに、単一の拡散ステップ内で被写体の文脈化をより一層高めるために、マスクガイド付き再スケーリング戦略も組み込みます。大規模な実験の結果、SwiftPieは画像パーソナライズの速度において優れた性能を提供するだけでなく、アイデンティティの忠実性とプロンプト整合性の両面で、多段手法と同等の性能を達成することを示します。本研究は、リアルタイムで高品質なパーソナライズ画像生成に向けた新たな機会を切り開き、インタラクティブな視覚合成への道を拓きます。