OpenAIのパラメータ・ゴルフ競技で約3週間実験した後、8xH100s上で、時間とサイズに制約のある状況(10分の学習、16MBの成果物、25Mパラメータ)において、SSMがトランスフォーマーに比べて構造的に不利になる理由をまとめました: https://mradassaad.github.io/posts/why-ssms-struggle-in-parameter-golf/
主な発見:
- LZMAのもとで、SSMのin_proj重みはattentionのQKVより最大3.26倍も圧縮効率が悪く、圧縮されたパラメータ予算を直接圧迫します
- SP4096で検証されたアーキテクチャ上の勝ち筋が、SP8192では符号が反転しました――目標語彙では、クリーンな勝ちに見えた2つの構成が逆方向に転じました
また、Mamba-3のTritonカーネルに関する3つのカーネルレベル実験も含まれています。SMEMの圧力によって16%遅くなったものの数値的に完全に一致したバックワード融合の試み、5.5 mBPBを失わせたtorch.compileの量子化器バグ、そして、サイズコストがほとんど無い状態で0.8 mBPBを回復した混合精度のダイナミクス保護です。
[link] [comments]



