要旨: 注意機構と再帰的コンポーネントを交互に用いるハイブリッド言語モデルは、純粋なTransformerと比べてますます競争力を持つようになっている一方で、標準的なLoRAの実践では、各コンポーネント型が担う異なる機能的役割を考慮せず、アダプタを一様に適用している。そこで本研究では、2つのハイブリッド・アーキテクチャにおいてコンポーネント型ごとのLoRA配置を体系的に調査する。対象は、Qwen3.5-0.8B(逐次、GatedDeltaNet + softmax注意)と、Falcon-H1-0.5B(並列、Mamba-2 SSM + 注意)であり、3つのドメインで微調整し、5つのベンチマークで評価する。その結果、注意経路は少数派のコンポーネントであるにもかかわらず一貫して、学習可能パラメータ数を5〜10分の1に抑えながら、フルモデル適応よりも優れていることが分かった。重要なのは、再帰バックボーンを適応させることは逐次ハイブリッドでは破壊的である(GSM8Kで-14.8 pp)一方、並列では建設的である(+8.6 pp)。さらに、転移の非対称性も明らかにする。すなわち、並列ハイブリッドは正のクロスタスク転移を示すのに対し、逐次ハイブリッドは壊滅的な忘却に陥る。これらの結果は、ハイブリッドのトポロジが適応への応答を本質的に決定すること、そしてコンポーネントを意識したLoRAの配置が、ハイブリッド・アーキテクチャにおける必要な設計次元であることを示す。
LoRAはどこに置くべきか?ハイブリッド言語モデルにおけるコンポーネント種別の配置
arXiv cs.LG / 2026/4/27
💬 オピニオンModels & Research
要点
- 本研究は、注意機構と再帰/SSMなどの異なるコンポーネントが担う役割が異なるため、従来のLoRA(アダプタを一様に適用するやり方)はハイブリッド言語モデルでは不適切だと主張しています。
- Qwen3.5-0.8BとFalcon-H1-0.5Bでの実験では、少数派のコンポーネントであるにもかかわらず、注意経路にLoRAを配置することで一貫して高い性能が得られ、しかもフルモデル適応より5〜10倍少ない学習可能パラメータで達成できることが示されました。
- 再帰バックボーンへの適応はアーキテクチャ依存で、逐次型ハイブリッドでは破壊的(例:GSM8Kで−14.8pp)である一方、並列型では建設的(+8.6pp)でした。
- さらに、転移にも非対称性があり、並列型はタスク間で正の転移を示すのに対し、逐次型は壊滅的忘却を起こすことが報告されています。
- 総じて、ハイブリッドのトポロジーが適応への反応を本質的に左右するため、コンポーネントを意識したLoRA配置がハイブリッド・アーキテクチャ設計に不可欠だと結論づけています。




