HubRouter:ハイブリッド系列モデル向けの、差し込み可能な準二次(サブ・クアドラティック)ルーティング・プリミティブ
arXiv cs.LG / 2026/4/27
📰 ニュースModels & Research
要点
- HubRouterは新しい差し込み可能なルーティング・プリミティブであり、小さな学習済みハブトークン(M << n)を用いて、O(n^2)注意をO(nM)のハブ仲介型メカニズムに置き換えます。
- ハブトークンが全トークンにクロスアテンションし、トークンがハブに対してルーティング指紋(fingerprints)を計算し、スコアヘッドがtop-kを選択し、スパースなcouncilが選ばれた部分集合のみにアテンションする「encode–decode–score–council」パイプラインを採用しています。
- この論文ではHubRouterを複数のアーキテクチャ(Jamba風ハイブリッドと12層Transformer)で評価し、事前学習済みモデルへの完全なレトロフィットはテストの結果うまくいかない(negative)事例だったと報告しています。
- 結果は構成に応じて、限定的なPPL改善やトレードオフが見られます:Hub-Jambaでは名目上約4.2%のPPL改善と大きな学習スループット向上が示され、Transformerでは注意層の25%を段階的に置換するとマッチド・バジェットでのPPLが改善し、Hub-GPTは厳密に因果的なルーティングを実現する一方で品質コストが発生します。
- 実験とスイープから、信頼性の高いハブ数の範囲はM=8–14であり、M>=20ではランダムシードに対する感度が高まることが示唆され、著者らはコードとスクリプトを公開予定です。



