StateSMix:Mambaの状態空間モデルとスパースn-gramによる文脈混合で実現するオンライン損失なし圧縮

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • StateSMixは、圧縮対象ファイルに対してオンライン学習(トークンごと)するMamba型の状態空間モデル(SSM)を中核に据えた、新しい完全自己完結の損失なし圧縮手法であり、事前学習済み重み・GPU・外部依存を必要としません。
  • 圧縮では、BPEトークン上の確率推定を継続的に更新するSSMと、ビグラム〜32-gramまでのスパースn-gram文脈混合を組み合わせ、9個の大規模ハッシュテーブルとsoftmax不変のlogit-bias機構で統合します。
  • エントロピー適応型のスケーリングにより、SSMの予測信頼度に応じてn-gram成分の寄与度を調整し、ニューラル予測がすでに十分に校正されている場合の過剰補正を防ぐことを狙います。
  • enwik8ベンチマークで、StateSMixは1MBで2.123 bpb、3MBで2.149 bpb、10MBで2.162 bpbを報告し、xz(LZMA2)に対してそれぞれ8.7%、5.4%、0.7%上回ります;アブレーションではSSMが主な圧縮要因であり、n-gramは補完的に約4.1%の改善をもたらすことが示されています。
  • 実装は純粋なC言語でAVX2 SIMDを用い、一般的なx86-64環境で約2,000トークン/秒を処理し、OpenMPによる4コアでの並列化により約1.9倍の速度向上を得ています。