Ortho-Hydra：DiT LoRA向けの直交化されたエキスパート

arXiv cs.LG / 2026/5/6

💬 オピニオンModels & Research

共有:

要点

本論文は、マルチスタイルデータに対する拡散トランス（DiT）向けMixture-of-Experts LoRAで「スタイル・ブリード」が起きることを問題として挙げ、低ランクの残差では複数の異なるアーティストの“フィンガープリント”を表現できず、最適化がそれらの平均に収束してしまうと説明している。
HydraLoRAではエキスパートをゼロ初期化するとコールドスタートでデッドロックになり得ることを示し、ルータが全エキスパートから同一の勾配を受けて一様な事前分布のままになり、結果としてエキスパートが対称的に進化して高コストだが実質的には単一ランクLoRAのように振る舞うことがある。
提案手法Ortho-Hydraは、OFT-styleのCayley直交共有基底に加え、事前学習済み重みの上位(E·r)個の左特異ベクトルから作る、エキスパートごとの“非重複（disjoint）”な出力部分空間を組み合わせる再パラメータ化を行う。
非重複な部分空間により、ステップ0の時点でルータのエキスパートごとのスコアが縮退しないため、各エキスパートが十分に学習される前から専門化（specialization）のための勾配信号を与えられる。
実験ではDiTパイプライン上で、Ortho-Hydraを2つのHydraLoRAベースライン（ゼロ初期化の共有基底版、σ=0.1のガウス・ジャイタによる既存緩和）と比較し、ベースラインは最初の1kステップ以内に一様事前分布から抜け出せないのに対し、Ortho-Hydraは数百ステップ以内に脱一様化（de-uniformising）を開始することを示す；なお論文は最終生成品質の評価ではなく、構成・コールドスタート機構・ルーティングのダイナミクスの変更点に焦点を当てている。

Abstract

複数スタイルのデータに対する拡散トランスフォーマ（DiT）のLoRA微調整は、\emph{style bleed（スタイル混入）}に悩まされます。すなわち、単一の低ランク残差では複数の異なるアーティストの指紋を表現できず、最適化器はそれらの平均へ収束してしまいます。HydraLoRAのスタイルにおけるmixture-of-experts（モーメント・オブ・エキスパート）LoRAは、アッププロジェクションをルータの下で

E

個のヘッドに置き換えますが、すべてのエキスパートがゼロ初期化されている場合、各ヘッドから同一の勾配がルータに入るため、ルータは一様な事前分布のまま留まります。その後、エキスパートは置換対称的に進化し、ネットワークは

E

倍のコストで、ランク-

r

の単一LoRAとして学習します。我々は\textbf{Ortho-Hydra}を提案します。これは、OFT-styleのCayley-直交共有基底と、学習済み重みの上位

(Er)

個の左特異ベクトルから切り出した、エキスパートごとの\emph{互いに素な出力部分空間}を組み合わせる再パラメータ化です。互いに素であることにより、ルータのエキスパートごとのスコアはステップ~

0

の時点で退化しないため、どのエキスパートもまだ訓練されていない段階で、専門化（スペシャライゼーション）には勾配信号が入ります。対策されるはずのデッドロック（進行不能）の予測を、マッチした最適化器・データセット・ステップ予算の下で、DiTパイプラインで検証します。具体的には、HydraLoRAの2つのベースライン、すなわちゼロ初期化された共有基底バリアントと、元の

\sigma{=}0.1

のガウス・ジャタリングによる緩和策を、Ortho-Hydraと比較します。いずれのベースラインも最初の

1\text{k}

ステップ以内に一様事前分布から外れません。一方、Ortho-Hydraは最初の数百ステップ内で一様性の脱均一化を開始します。エンドタスクの生成品質については、複数スタイルデータでの評価は本稿の範囲外です。ここでは、構成、コールドスタートの仕組み、そしてそれが変えるルーティングのダイナミクスを報告します。コード: https://github.com/sorryhyun/anima_lora。

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

日経XTECH

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

MarkTechPost

Solidity LMがOpusを上回る

Reddit r/LocalLLaMA

量子・重力・古典相互作用を一つの作用で扱う方程式と、その実装メモ

Qiita

Qwen 3.6 27B の量子化（BF16、Q8_0、Q6_K、Q5_K_XL、Q4_K_XL、IQ4_XS、IQ3_XXS…）における品質比較

Reddit r/LocalLLaMA

Ortho-Hydra：DiT LoRA向けの直交化されたエキスパート

要点

Abstract

関連記事

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

Solidity LMがOpusを上回る

量子・重力・古典相互作用を一つの作用で扱う方程式と、その実装メモ

Qwen 3.6 27B の量子化（BF16、Q8_0、Q6_K、Q5_K_XL、Q4_K_XL、IQ4_XS、IQ3_XXS…）における品質比較

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer