機能コンポーネントのアブレーションにより、ハイブリッド言語モデルアーキテクチャにおける専門化パターンを明らかにする

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、注意（attention）と状態空間モデル（SSM）または線形注意（linear attention）を組み合わせたハイブリッド言語モデルが、両方の構成要素を実際にどの程度依存しているのかを、2つの小規模サブ1Bモデルと純粋なTransformerを対照として、機能コンポーネントのアブレーションにより検証する。
結果は、注意と代替となるコンポーネント種（線形注意またはSSM）の双方が必要であり、代替バックボーンを取り除くと、注意を取り除く場合と比べて非常に大きなパープレキシティの悪化が生じることを示す。
著者らは、コンポーネントの重要性が位置によって異なり、初期層が言語モデリング性能に対して不釣り合いに重要な役割を果たすことを見出す。
ハイブリッド・アーキテクチャは、ランダムな層削除に対して純粋なTransformerよりも実質的に耐性が高いことが示されており、両コンポーネント間に意味のある機能的冗長性があることを示唆する。
これらの知見は、ハイブリッドモデル圧縮、アーキテクチャ設計の選択、フォールトトレラントなデプロイ戦略に向けた実行可能なガイダンスとして位置づけられている。

概要: 注意機構と状態空間モデル（SSM）または線形注意を組み合わせたハイブリッド言語モデルは、効率が向上しますが、両方の構成要素が本当に活用されているのかどうかは不明です。本稿では、2つのサブ1Bハイブリッドモデル――Qwen3.5-0.8B（逐次: Gated DeltaNet + softmax attention）およびFalcon-H1-0.5B（並列: Mamba-2 + attention）――に適用する、機能的構成要素アブレーション（寄与度除去）フレームワークを提示します。比較対象として純粋なTransformer制御モデル（Qwen2.5-0.5B）も用います。グループ別アブレーション、層ごとの探索、位置（positional）アブレーション、一致させたランダム制御、ならびに5つのベンチマークにわたるパープレキシティ解析を通じて、以下の4つの知見を確立します: (1) 両方の構成要素タイプが不可欠であり、どちらも迂回（バイパス）されてはいない; (2) 対応する代替構成要素（線形注意またはSSM）が、主要な言語モデリングのバックボーンであり、それが除去されると、注意が除去された場合（約82倍）に比べてパープレキシティが>35,000倍悪化します; (3) 構成要素の重要度は位置に対する勾配に従い、初期層ほど過度に重要です; そして(4) ハイブリッドアーキテクチャは、ランダムな層の除去に対して、純粋なTransformerよりも20〜119倍高いレジリエンス（耐障害性）を示し、構成要素タイプ間に内蔵された機能的冗長性が明らかになります。これらの結果は、ハイブリッドモデルの圧縮、アーキテクチャ設計、ならびにフォールトトレラント（耐障害）なデプロイメントに向けた実行可能な指針を提供します。