パラメータ制約下でSSMが苦戦する理由:25Mパラメータでの実証結果【R】

Reddit r/MachineLearning / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • OpenAIの「Parameter Golf」コンペで約3週間の実験を行い、厳しい時間・サイズ制約(10分学習、16MB成果物、25Mパラメータ)のもとで、SSMがトランスフォーマーに比べ構造的に不利になる理由を述べています(8xH100sで実施)。
  • LZMA環境では、SSMのin_proj重みは注意機構のQKV重みに比べ最大で3.26倍ほど圧縮しにくく、結果として圧縮パラメータ予算をより多く消費してしまうことが分かりました。
  • アーキテクチャ上の改善が小さいシーケンス設定(SP4096)では有望に見えても、ターゲット設定(SP8192)では評価語彙の影響もあり効果が反転し得ることを示しています。
  • さらにMamba-3のTritonカーネルに関するカーネルレベル実験として、数値的に正確でもSMEM圧力で約16%遅くなった後方フュージョン試行、コンパイル/量子化の不具合、混合精度によるダイナミクス保護など、mBPBの改善が確認された要素を扱っています。

OpenAIのパラメータ・ゴルフ競技で約3週間実験した後、8xH100s上で、時間とサイズに制約のある状況(10分の学習、16MBの成果物、25Mパラメータ)において、SSMがトランスフォーマーに比べて構造的に不利になる理由をまとめました: https://mradassaad.github.io/posts/why-ssms-struggle-in-parameter-golf/

主な発見:

  1. LZMAのもとで、SSMのin_proj重みはattentionのQKVより最大3.26倍も圧縮効率が悪く、圧縮されたパラメータ予算を直接圧迫します
  2. SP4096で検証されたアーキテクチャ上の勝ち筋が、SP8192では符号が反転しました――目標語彙では、クリーンな勝ちに見えた2つの構成が逆方向に転じました

また、Mamba-3のTritonカーネルに関する3つのカーネルレベル実験も含まれています。SMEMの圧力によって16%遅くなったものの数値的に完全に一致したバックワード融合の試み、5.5 mBPBを失わせたtorch.compileの量子化器バグ、そして、サイズコストがほとんど無い状態で0.8 mBPBを回復した混合精度のダイナミクス保護です。

投稿者: /u/mradassaad
[link] [comments]