LoRAはどこに置くべきか？ハイブリッド言語モデルにおけるコンポーネント種別の配置

arXiv cs.LG / 2026/4/27

💬 オピニオンModels & Research

共有:

要点

本研究は、注意機構と再帰/SSMなどの異なるコンポーネントが担う役割が異なるため、従来のLoRA（アダプタを一様に適用するやり方）はハイブリッド言語モデルでは不適切だと主張しています。
Qwen3.5-0.8BとFalcon-H1-0.5Bでの実験では、少数派のコンポーネントであるにもかかわらず、注意経路にLoRAを配置することで一貫して高い性能が得られ、しかもフルモデル適応より5〜10倍少ない学習可能パラメータで達成できることが示されました。
再帰バックボーンへの適応はアーキテクチャ依存で、逐次型ハイブリッドでは破壊的（例：GSM8Kで−14.8pp）である一方、並列型では建設的（+8.6pp）でした。
さらに、転移にも非対称性があり、並列型はタスク間で正の転移を示すのに対し、逐次型は壊滅的忘却を起こすことが報告されています。
総じて、ハイブリッドのトポロジーが適応への反応を本質的に左右するため、コンポーネントを意識したLoRA配置がハイブリッド・アーキテクチャ設計に不可欠だと結論づけています。

要旨: 注意機構と再帰的コンポーネントを交互に用いるハイブリッド言語モデルは、純粋なTransformerと比べてますます競争力を持つようになっている一方で、標準的なLoRAの実践では、各コンポーネント型が担う異なる機能的役割を考慮せず、アダプタを一様に適用している。そこで本研究では、2つのハイブリッド・アーキテクチャにおいてコンポーネント型ごとのLoRA配置を体系的に調査する。対象は、Qwen3.5-0.8B（逐次、GatedDeltaNet + softmax注意）と、Falcon-H1-0.5B（並列、Mamba-2 SSM + 注意）であり、3つのドメインで微調整し、5つのベンチマークで評価する。その結果、注意経路は少数派のコンポーネントであるにもかかわらず一貫して、学習可能パラメータ数を5〜10分の1に抑えながら、フルモデル適応よりも優れていることが分かった。重要なのは、再帰バックボーンを適応させることは逐次ハイブリッドでは破壊的である（GSM8Kで-14.8 pp）一方、並列では建設的である（+8.6 pp）。さらに、転移の非対称性も明らかにする。すなわち、並列ハイブリッドは正のクロスタスク転移を示すのに対し、逐次ハイブリッドは壊滅的な忘却に陥る。これらの結果は、ハイブリッドのトポロジが適応への応答を本質的に決定すること、そしてコンポーネントを意識したLoRAの配置が、ハイブリッド・アーキテクチャにおける必要な設計次元であることを示す。