ハイブリッド言語モデルにおけるコンポーネント対応の自己推測デコード

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、ハイブリッド言語モデル向けに「コンポーネント対応の自己推測デコード」を提案し、SSM/線形アテンションの内部サブグラフを“ゼロコスト”のドラフトとして利用します。
  • Falcon-H1 と Qwen3.5 のハイブリッド構成で評価した結果、受け入れ率に大きな差が出ており、並列ハイブリッドでは α≈0.68(k=2、貪欲デコード)を達成する一方、逐次ハイブリッドは α≈0.038 と低いことが示され、コンポーネントの統合方法が重要であることが示唆されます。
  • 提案手法はスケールに対して不変(スケール不変)で、Falcon-H1 では 3B が 0.5B と同様の受け入れ率を再現したと報告されています。
  • さらに著者らは、推測デコードを実行せずとも、アブレーションに基づくパープレキシティ劣化の比率から“推測の実行可能性”を予測できることを示し、Falcon は高い α(例:k=4 で α≈0.37)に対応する一方、Qwen は低い α(例:α≈0.019)に対応すると報告しています。
  • 逐次ハイブリッドでは、汎用の LayerSkip がコンポーネント対応の手法より約12×高い受け入れ率を示すため、最適戦略はハイブリッドの合成(構成)に依存することが示されます。

Abstract

推測的デコーディングは、高速モデルで候補トークンを下書きし、それらを目標モデルと並列に検証することで、自回帰的推論を高速化する。自己推測的(self-speculative)手法は外部のドラフタを必要としないが、これまで均質なTransformerアーキテクチャのみにおいて研究されてきた。ここでは、ハイブリッド言語モデルの内部にあるアーキテクチャの異質性を活用する最初の手法として、コンポーネント認識型の自己推測的デコーディング(component-aware self-speculative decoding)を導入する。これはSSM/線形アテンション(linear-attention)サブグラフを「ゼロコスト」の内部ドラフトとして切り出す。これを、アーキテクチャ的に異なる2つのハイブリッド系列で評価する:Falcon-H1(並列:層ごとにMamba-2 + attention)とQwen3.5(逐次:線形層とアテンション層を交互に配置)であり、純粋なTransformerの制御実験としてQwen2.5を用いる。並列ハイブリッドは、貪欲デコーディングの下で下書き長k=2において受理率α = 0.68を達成する一方、逐次ハイブリッドはα = 0.038しか得られない――これは、それぞれのアーキテクチャがコンポーネントをどのように統合しているかによって説明できる18倍の差である。この性質はスケール不変であり、Falcon-H1の3Bは0.5Bで観測された率を再現する。さらに、同伴するアブレーション研究におけるパープレキシティの劣化が、推測的デコーディングを実行せずに推測的な実現可能性を予測できることを示す。Falconでは3.15倍の比がk=4でα = 0.37に対応し、Qwenでは81.96倍がα = 0.019に対応する。逐次ハイブリッドでは、汎用のLayerSkipがコンポーネント認識型戦略よりも12倍高い受理率を達成する。ハイブリッドモデルの合成パターン――単に代替コンポーネントが存在するかどうかではなく――が、コンポーネント単位の自己推測が実行可能かどうかを決定する。