パラメータ制約下でSSMが苦戦する理由：25Mパラメータでの実証結果【R】

Reddit r/MachineLearning / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

OpenAIの「Parameter Golf」コンペで約3週間の実験を行い、厳しい時間・サイズ制約（10分学習、16MB成果物、25Mパラメータ）のもとで、SSMがトランスフォーマーに比べ構造的に不利になる理由を述べています（8xH100sで実施）。
LZMA環境では、SSMのin_proj重みは注意機構のQKV重みに比べ最大で3.26倍ほど圧縮しにくく、結果として圧縮パラメータ予算をより多く消費してしまうことが分かりました。
アーキテクチャ上の改善が小さいシーケンス設定（SP4096）では有望に見えても、ターゲット設定（SP8192）では評価語彙の影響もあり効果が反転し得ることを示しています。
さらにMamba-3のTritonカーネルに関するカーネルレベル実験として、数値的に正確でもSMEM圧力で約16%遅くなった後方フュージョン試行、コンパイル/量子化の不具合、混合精度によるダイナミクス保護など、mBPBの改善が確認された要素を扱っています。

OpenAIのパラメータ・ゴルフ競技で約3週間実験した後、8xH100s上で、時間とサイズに制約のある状況（10分の学習、16MBの成果物、25Mパラメータ）において、SSMがトランスフォーマーに比べて構造的に不利になる理由をまとめました： https://mradassaad.github.io/posts/why-ssms-struggle-in-parameter-golf/

主な発見：

LZMAのもとで、SSMのin_proj重みはattentionのQKVより最大3.26倍も圧縮効率が悪く、圧縮されたパラメータ予算を直接圧迫します
SP4096で検証されたアーキテクチャ上の勝ち筋が、SP8192では符号が反転しました――目標語彙では、クリーンな勝ちに見えた2つの構成が逆方向に転じました

また、Mamba-3のTritonカーネルに関する3つのカーネルレベル実験も含まれています。SMEMの圧力によって16%遅くなったものの数値的に完全に一致したバックワード融合の試み、5.5 mBPBを失わせたtorch.compileの量子化器バグ、そして、サイズコストがほとんど無い状態で0.8 mBPBを回復した混合精度のダイナミクス保護です。

投稿者： /u/mradassaad
[link] [comments]

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

Dev.to

パラメータ制約下でSSMが苦戦する理由：25Mパラメータでの実証結果【R】

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

AIエージェントのガバナンスと責任：それらの問いに答えようとして作ったもの

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」