スーパー・アプリール:1つのチェックポイントで多段階の速度を実現

arXiv cs.LG / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文は、Super Aprielを提案します。Super Aprielは15Bパラメータのスーパーネットで、各デコーダ層が「Full Attention」「Sliding Window Attention」「Kimi Delta Attention」「Gated DeltaNet」の4種類から選べ、共有チェックポイントのまま提供(サービング)時に切り替え可能です。
  • Mixerの配置を重みの再ロードなしで変更できるため、同一チェックポイントで複数の速度プリセットを提供でき、さらに別のドラフトモデルなしでspeculative decodingも可能になります。
  • 結果として、全FA(全てFull Attention)設定は報告されたベンチマークでApriel 1.6教師モデルと同等性能を示しつつ、ハイブリッド設定では品質保持(96%〜77%)と引き換えにデコードスループット(2.9×〜10.7×)を向上させ、特に長いコンテキスト長でその優位が増幅します。
  • 大規模な構成空間に対して、配置の良さを予測するサロゲートモデルを用いて探索を現実的にし、学習のどの段階で最適配置が見つけられるかを検証したところ、0.5Bスケールではランキングが早期に安定する一方、15Bでは最も効率的な構成で不安定性が高まることが分かり、小型モデルからの外挿には注意が必要だと示しています。
  • Super Aprielは、スーパーネットの重み、Fast-LLMの学習コード、vLLMのサービングコード、配置最適化ツールキットなどの成果物を公開しており、実運用や追加検証を後押しします。

要旨: すべてのデコーダ層が4種類の学習済みミキサー選択肢――フル・アテンション (FA)、スライディング・ウィンドウ・アテンション (SWA)、キミ・デルタ・アテンション (KDA)、およびゲート付きデルタネット (GDN)――を提供する、15Bパラメータのスーパーネット Super Apriel を公開します。配置(placement)は各層に対して1つのミキサーを選択します。配置はサービング時に再ロードなしでリクエスト間で切り替え可能であり、単一のチェックポイントから複数のスピードプリセットを実現できます。共有チェックポイントにより、別個のドラフトモデルを用いずに推測(speculative)デコーディングも可能になります。すべてFAのプリセットは、報告されたすべてのベンチマークにおいて Apriel 1.6 教師モデルと一致します。推奨されるハイブリッド・プリセットは、品質保持率77%〜96%の範囲で、デコードスループットを 2.9\times から 10.7\times まで拡大します。こうしたスループット上の優位性は、より長いコンテキスト長で累積的に強まります。48層にわたって4種類のミキサーを用いるため、構成空間は非常に大きくなります。層ごとのミキサー割り当てから配置の品質を予測する代理モデルにより、スピード・品質の地形(landscape)が扱いやすくなり、各スピード水準における最良のトレードオフを特定できます。各スピード水準における最良の構成は、学習の早い段階で識別できるのか、それとも収束後でなければ無理なのかを調査します。ランキングは0.5B規模で素早く安定しますが、最も効率的な構成は15Bでより高い不安定性を示すため、小規模モデルからの外挿には注意が必要です。Super Apriel は、固定した Apriel 1.6 教師モデルによる確率的蒸留(stochastic distillation)で学習し、その後に教師あり微調整(supervised fine-tuning)を行います。スーパー ネットの重み、Fast-LLM の学習コード、vLLM のサービングコード、および配置最適化ツールキットを公開します。