OrthoFuse:拡散モデルに対する直交スタイル—コンセプトアダプタの学習不要なリーマン融合

arXiv cs.LG / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • OrthoFuseは、拡散モデルに対して、複数の直交方向に微調整されたアダプタ(具体的にはGroup-and-Shuffleの直交行列)を学習なしで統合する手法を提案し、1つのモデル内でコンセプト/被写体とスタイルのアダプタをどのように融合するかという課題に取り組む。
  • 構造化された直交パラメトリゼーションの幾何学的性質を活用し、効率的な数式を導出する。これには、2つのアダプタ状態間の測地線(geodesic)の近似が含まれる。
  • 論文では、マージ後にスペクトル特性を回復させることを目的とした「スペクトル・レストレーション(spectra restoration)」変換を導入し、融合アダプタの品質を向上させる。
  • 被写体主導の生成タスクに関する実験では、融合されたアダプタが異なる情報源からのコンセプトとスタイルの特徴を統合できることが示され、著者らは、乗法的な直交アダプタを統合するための最初の学習不要アプローチであると主張している。
  • コードはプロジェクトのリポジトリで提供されており、再現性の確保と、提案する融合手法によるより迅速な実験を可能にする。

Abstract

急速に成長しているモデル学習の分野において、パラメータ効率の高い微調整や、限られた量の学習データを用いてモデルを特定の狭いタスクに適応させるさまざまな手法に対する実務上の関心は常に高いです。しかし、未解決の問いがあります。それは、異なるタスク向けに調整された複数のアダプタを、両方のタスクに対して十分に適切な結果をもたらせるように一つに統合するにはどうすればよいのか、という点です。具体的には、生成モデルにおける主題(subject)アダプタとスタイル(style)アダプタのマージは、依然として解決されていません。本論文では、直交微調整(OFT)の場合に、構造化された直交パラメータ化とその幾何学的性質を用いることで、トレーニング不要のアダプタ統合のための数式を導けることを示します。特に、近年提案された Group-and-Shuffle(\mathcal{GS})直交行列によって形成される多様体の構造を導出し、2点間の測地線(geodesics)近似に対する効率的な公式を得ます。さらに、融合の品質を高めるために、マージされたアダプタのスペクトル特性を復元する \text{spectra restoration} 変換を提案します。主題駆動の生成タスクに関する実験を行い、本手法が2つの \mathcal{GS} 直交行列をマージすることで、異なるアダプタの概念(concept)とスタイルの特徴を統合できることを示します。筆者らの知る限り、本研究は、乗算型(multiplicative)の直交アダプタを統合するための初めてのトレーニング不要手法です。コードは \href{https://github.com/ControlGenAI/OrthoFuse}{link} から入手できます。