StyleGallery: 訓練不要でセマンティック対応の任意画像参照からのパーソナライズドスタイル転送
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- StyleGalleryは、任意の参照画像からのパーソナライズドスタイル転送のための訓練不要・セマンティック対応のフレームワークとして導入され、セマンティックギャップと追加制約への依存を解消する。
- 3つのコア段階を用いる: 潜在拡散特徴に基づく適応的クラスタリングによる意味領域分割、抽出特徴のブロックフィルタリングを用いたクラスタ化領域マッチングによる正確な整列、地域別スタイル損失を用いたエネルギー関数誘導の拡散サンプリングによるスタイル転送最適化。
- 本手法は、コンテンツ構造の保持、細かな領域スタイライズ、解釈性、および複数のスタイル参照を用いた場合のパーソナライズカスタマイズにおいて、最先端手法を上回ると報告されている。
- 任意の参照からの訓練不要のパーソナライズドスタイル転送を実現することで、StyleGalleryは拡散ベースのスタイル転送の実用性と適応性を広げる。
拡散ベースの画像スタイル転送の進歩にもかかわらず、従来の手法は一般に次の点で制限されている。1) セマンティックギャップ: スタイル参照が適切な意味論的内容を欠くことがあり、制御不能なスタイリングを引き起こす。2) 追加の制約(例: セマンティックマスク)への依存により適用性が制限される。3) 固定的な特徴対応により適応的なグローバル-ローカルの整合性が欠如し、細かなスタイリングとグローバルなコンテンツ保持のバランスを取れない。これらの制限は、特にスタイル入力を柔軟に活用できないことによって、パーソナライズ、精度、適応性の点でスタイル転送を根本的に制限する。これらに対処するため、任意の参照画像を入力としてサポートし、効果的なパーソナライズドカスタマイズを実現する訓練不要でセマンティック対応のフレームワーク StyleGallery を提案する。これは、3つのコア段階から成る:意味領域分割(追加入力なしに領域を分割する潜在拡散特徴に対する適応的クラスタリング)、クラスタ化領域マッチング(抽出特徴へのブロックフィルタリングによる正確な整列)、およびスタイル転送最適化(地域別スタイル損失を持つエネルギー関数誘導拡散サンプリングでスタイライズを最適化)。我々が導入したベンチマークでの実験は、StyleGalleryがコンテンツ構造の保持、領域別スタイライズ、解釈性、および特に複数のスタイル参照を活用した場合のパーソナライズドカスタマイズにおいて、最先端手法を上回ることを示している。
関連記事
Translator
Azure OpenAI Service ドキュメント
200人のChatGPTユーザーに聞いた最大の不満。トップ5はすべてChatGPT Toolboxが解決する問題だった。
Reddit r/artificial
すべてのPRをセキュリティバグでレビューするAIを作った — その方法(2026)
Dev.to
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法
Dev.to