Ortho-Hydra:DiT LoRA向けの直交化されたエキスパート

arXiv cs.LG / 2026/5/6

💬 オピニオンModels & Research

要点

  • 本論文は、マルチスタイルデータに対する拡散トランス(DiT)向けMixture-of-Experts LoRAで「スタイル・ブリード」が起きることを問題として挙げ、低ランクの残差では複数の異なるアーティストの“フィンガープリント”を表現できず、最適化がそれらの平均に収束してしまうと説明している。
  • HydraLoRAではエキスパートをゼロ初期化するとコールドスタートでデッドロックになり得ることを示し、ルータが全エキスパートから同一の勾配を受けて一様な事前分布のままになり、結果としてエキスパートが対称的に進化して高コストだが実質的には単一ランクLoRAのように振る舞うことがある。
  • 提案手法Ortho-Hydraは、OFT-styleのCayley直交共有基底に加え、事前学習済み重みの上位(E·r)個の左特異ベクトルから作る、エキスパートごとの“非重複(disjoint)”な出力部分空間を組み合わせる再パラメータ化を行う。
  • 非重複な部分空間により、ステップ0の時点でルータのエキスパートごとのスコアが縮退しないため、各エキスパートが十分に学習される前から専門化(specialization)のための勾配信号を与えられる。
  • 実験ではDiTパイプライン上で、Ortho-Hydraを2つのHydraLoRAベースライン(ゼロ初期化の共有基底版、σ=0.1のガウス・ジャイタによる既存緩和)と比較し、ベースラインは最初の1kステップ以内に一様事前分布から抜け出せないのに対し、Ortho-Hydraは数百ステップ以内に脱一様化(de-uniformising)を開始することを示す;なお論文は最終生成品質の評価ではなく、構成・コールドスタート機構・ルーティングのダイナミクスの変更点に焦点を当てている。

Abstract

複数スタイルのデータに対する拡散トランスフォーマ(DiT)のLoRA微調整は、\emph{style bleed(スタイル混入)}に悩まされます。すなわち、単一の低ランク残差では複数の異なるアーティストの指紋を表現できず、最適化器はそれらの平均へ収束してしまいます。HydraLoRAのスタイルにおけるmixture-of-experts(モーメント・オブ・エキスパート)LoRAは、アッププロジェクションをルータの下でE個のヘッドに置き換えますが、すべてのエキスパートがゼロ初期化されている場合、各ヘッドから同一の勾配がルータに入るため、ルータは一様な事前分布のまま留まります。その後、エキスパートは置換対称的に進化し、ネットワークはE倍のコストで、ランク-rの単一LoRAとして学習します。我々は\textbf{Ortho-Hydra}を提案します。これは、OFT-styleのCayley-直交共有基底と、学習済み重みの上位(Er)個の左特異ベクトルから切り出した、エキスパートごとの\emph{互いに素な出力部分空間}を組み合わせる再パラメータ化です。互いに素であることにより、ルータのエキスパートごとのスコアはステップ~0の時点で退化しないため、どのエキスパートもまだ訓練されていない段階で、専門化(スペシャライゼーション)には勾配信号が入ります。対策されるはずのデッドロック(進行不能)の予測を、マッチした最適化器・データセット・ステップ予算の下で、DiTパイプラインで検証します。具体的には、HydraLoRAの2つのベースライン、すなわちゼロ初期化された共有基底バリアントと、元の\sigma{=}0.1のガウス・ジャタリングによる緩和策を、Ortho-Hydraと比較します。いずれのベースラインも最初の1\text{k}ステップ以内に一様事前分布から外れません。一方、Ortho-Hydraは最初の数百ステップ内で一様性の脱均一化を開始します。エンドタスクの生成品質については、複数スタイルデータでの評価は本稿の範囲外です。ここでは、構成、コールドスタートの仕組み、そしてそれが変えるルーティングのダイナミクスを報告します。コード: https://github.com/sorryhyun/anima_lora。