FREE-Switch:スタイル転送のための周波数ベース動的LoRAスイッチ

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、画像生成における従来のマージ手法でよく見られるコンテンツのドリフトを回避しつつ、拡散ベースのスタイル転送のために複数のLoRAアダプタを統合する、周波数領域に基づく重要度駆動の動的LoRAスイッチング手法FREE-Switchを提案する。
  • 異なるアダプタは拡散ステップごとに寄与の仕方が異なると主張し、均一な融合ではなく、周波数領域でのステップ重要度に基づいてアダプタの影響を動的に選択または重み付けする。
  • アダプタの切り替え/組み合わせに伴う詳細の劣化を防ぐために、本手法には複数アダプタ間で生成意図を意味レベルで整合させる自動生成アラインメント機構を含める。
  • 実験結果として、FREE-Switchは異なる対象物やスタイルのためのアダプタを組み合わせつつ、計算コストの高い訓練ベースのマージ代替手法と比べて学習コストを大幅に削減できると報告されている。

要旨: 多様なシーンやオブジェクトに対して同一の拡散バックボーンで学習された、オープンソースのアダプタが広く利用可能になってきたことで、これらの事前学習済み重みを組み合わせることで低コストなカスタマイズ生成が可能になります。しかし、既存の多くのモデル統合手法は分類またはテキスト生成向けに設計されており、それを画像生成に適用すると、複数の拡散ステップにまたがる誤差の蓄積によりコンテンツが逸脱(ドリフト)してしまいます。画像指向の手法では、学習ベースのアプローチは計算コストが高く、エッジ展開に不適です。一方、学習なしの手法では、アダプタ間の違いを無視する一様な融合戦略が用いられるため、細部の劣化につながります。私たちは、異なるアダプタが異なる種類のコンテンツ生成に特化しているため、各拡散ステップにおける寄与は各アダプタに対して異なる重要性を持つことを見出しました。そこで、周波数領域における重要度に基づく動的 LoRA スイッチ手法を提案します。さらに、アダプタ間で意味の一貫性を維持することが、細部の損失を効果的に抑えることを観察しました。したがって、意味レベルで生成意図を整合させる自動の Generation Alignment(生成整合)メカニズムを設計します。実験の結果、提案する FREE-Switch(Frequency-based Efficient and Dynamic LoRA Switch)フレームワークは、異なるオブジェクトやスタイルのためのアダプタを効率的に組み合わせ、高品質なカスタマイズ生成における学習コストを大幅に削減できることが示されました。