Abstract
複数スタイルのデータに対する拡散トランスフォーマ(DiT)のLoRA微調整は、\emph{style bleed(スタイル混入)}に悩まされます。すなわち、単一の低ランク残差では複数の異なるアーティストの指紋を表現できず、最適化器はそれらの平均へ収束してしまいます。HydraLoRAのスタイルにおけるmixture-of-experts(モーメント・オブ・エキスパート)LoRAは、アッププロジェクションをルータの下でE個のヘッドに置き換えますが、すべてのエキスパートがゼロ初期化されている場合、各ヘッドから同一の勾配がルータに入るため、ルータは一様な事前分布のまま留まります。その後、エキスパートは置換対称的に進化し、ネットワークはE倍のコストで、ランク-rの単一LoRAとして学習します。我々は\textbf{Ortho-Hydra}を提案します。これは、OFT-styleのCayley-直交共有基底と、学習済み重みの上位(Er)個の左特異ベクトルから切り出した、エキスパートごとの\emph{互いに素な出力部分空間}を組み合わせる再パラメータ化です。互いに素であることにより、ルータのエキスパートごとのスコアはステップ~0の時点で退化しないため、どのエキスパートもまだ訓練されていない段階で、専門化(スペシャライゼーション)には勾配信号が入ります。対策されるはずのデッドロック(進行不能)の予測を、マッチした最適化器・データセット・ステップ予算の下で、DiTパイプラインで検証します。具体的には、HydraLoRAの2つのベースライン、すなわちゼロ初期化された共有基底バリアントと、元の\sigma{=}0.1のガウス・ジャタリングによる緩和策を、Ortho-Hydraと比較します。いずれのベースラインも最初の1\text{k}ステップ以内に一様事前分布から外れません。一方、Ortho-Hydraは最初の数百ステップ内で一様性の脱均一化を開始します。エンドタスクの生成品質については、複数スタイルデータでの評価は本稿の範囲外です。ここでは、構成、コールドスタートの仕組み、そしてそれが変えるルーティングのダイナミクスを報告します。コード: https://github.com/sorryhyun/anima_lora。