生成系AIの時代は多くの人にとって、2022年末にOpenAIのChatGPTが公開されたことを機に始まりましたが、基盤となる技術 — 「トランスフォーマー」ニューラルネットワークアーキテクチャは、AIモデルが文中の異なる語の重要性を異なる重みで評価し、情報を並列に学習することを可能にする — はGoogleの画期的な2017年の論文「Attention Is All You Need」まで遡ります。
しかし、Transformerは比類のないモデル品質を提供し、今日使われている主要な生成系AIモデルの多くを支えてきましたが、それらは計算資源を大量に消費します。二次の計算量と線形のメモリ需要により大規模推論は高価で、しばしば実現が難しい取り組みとなります。したがって、2023年に新しいアーキテクチャであるMambaを開発して改善を図ろうとする研究者の願望が生まれ、それがハイブリッドMamba-TransformerモデルとしてNvidiaのNemotron 3 Superのように取り入れられるに至りました。
さて、元のMambaアーキテクチャの背後にいた同じ研究者たち、カーネギーメロン大学のAlbert Guとプリンストン大学のTri Daoを含む研究チームは、最新バージョンの新しいアーキテクチャ、Mamba-3を公開しました。これを言語モデルとして、Apache 2.0オープンソースライセンスの下で提供します。商業目的を含む企業を含む開発者に直ちに利用可能になります。技術論文もarXiv.orgに論文が公表されています。
パープレキシティ(いいえ、会社のことではありません)とMamba-3の新たな効率性
Mamba(Mamba-3を含む)は、状態空間モデル(SSM)の一種です。
これらはAIのための高速な「要約機」です。ChatGPTの背後にあるような多くの人気モデルは、次に来る単語を理解するために、既に見たすべての語を再確認する必要があり、会話が長くなるほど遅く高価になります。一方、SSMはコンパクトで常に変化する内部状態を維持します。この状態は、データ全体の履歴のデジタルな「精神的スナップショット」にほかなりません。
新しい情報が流れ込むと、モデルはすべてを最初から読み直す代わりにこのスナップショットを更新します。これにより、AIは書籍全体の図書館や長いDNA鎖のような膨大な情報を、素晴らしい速度と大幅に低いメモリ要件で処理することができます。
Mamba-3がもたらす飛躍を理解するには、まず研究でモデル品質を測る主要指標として用いられるパープレキシティを理解する必要があります。
言語モデリングの文脈では、パープレキシティは新しいデータに対してモデルがどれだけ「驚く」かを測る指標です。
モデルを専門のギャンブラーになぞらえると、パープレキシティが高い場合はどこに賭けるべきかが不確かで、次に来る単語の候補が多数同様に有力に見えます。
低いパープレキシティのスコアは、モデルがより「確信している」— 人間の言語の基礎的なパターンをより良く把握していることを意味します。AI開発者にとって、パープレキシティは知性の高忠実度代理指標として機能します。
Mamba-3の研究で報告された突破口は、前任のMamba-2と同等のパープレキシティを達成しつつ、状態サイズを半分しか使用しない点です。これにより、同じくらい賢いモデルを、実行時には2倍の効率で動かすことができます。
新しい哲学
Mamba-3を導く哲学は、AI「知性」と、それを実行するハードウェアの速度の間にある根本的な見方の転換です。前世代のMamba-2は、記録的な速さで訓練されることを目的として設計されましたが、Mamba-3は「推論優先」アーキテクチャです — 推論とは、ChatGPTやGoogle Geminiのようなウェブサイトを通じて、あるいはAPIを通じてエンドユーザーにAIモデルを提供する方法を指します。
Mamba-3の主な目標は、GPUがアクティブなすべての秒を最大化し、ユーザーを待たせずに可能な限りモデルが思考するようにすることです。
言語モデルの世界では、精度の各点は困難な獲得です。15億パラメータ規模で、最も高度な「MIMO」バリアントのMamba-3は、ベンチマーク全体で57.6%の平均精度を達成し、業界標準のトランスフォーマーより2.2ポイント高い値を示しています。
2ポイントの跳躍は控えめに聞こえるかもしれませんが、実際にはトランスフォーマー基準と比較して言語モデリング能力の相対的な約4%の増加を意味します。さらに印象的なのは、上記にも示唆されたように、Mamba-3は前任者と同等の予測品質を、内部の「状態サイズ」を半分だけ使用するだけで達成でき、同じ知性の水準を、より少ないメモリ遅延で実現します。
長年、Transformerの効率的な代替手段は「論理ギャップ」に悩まされてきました — 内部の数学が厳格すぎるため、パターンを追跡したり基本的な算術を解くといった単純な推論タスクでしばしば失敗します。Mamba-3は、複素値状態を導入することでこれを解決します。
チームが呼ぶ「RoPEトリック」を用いると、複素値状態更新は、入力と出力の射影に適用されたデータ依存のロータリ埋め込み(RoPE)と数学的に同等であることを示しています。
これにより、Mamba-3はMamba-2には不可能だった合成推論タスクをほぼ完璧に解くことができます。
3. MIMO: 演算強度の向上
推論効率における最も顕著な飛躍は、Single-Input, Single-Output (SISO) から Multi-Input, Multi-Output (MIMO) SSMへと移行することです。
標準のSSMでは、状態更新は外積演算であり、メモリ依存が高いです。これを行列乗算ベースの状態更新に切り替えることで、Mamba-3はモデルの「算術強度」(FLOPsとメモリ帯域の比)を高めます。
これにより、メモリ待機型のデコードフェーズの間により多くの計算を実行できるようになります。要するに、Mamba-3はGPUの“アイドル時”の計算コアを活用して、追加のコストなしにモデルのパワーを向上させ、従来の単純な前任モデルと同じデコード速度を維持します。
企業とAIビルダーにとってのMamba-3の意味
企業にとって、Mamba-3はAI展開における総 ownership コスト(TCO)の戦略的転換を意味します。
コスト対性能: 同一パラメータ条件での性能において、Mamba-3 (MIMO) は Mamba-2 のパープレキシティに匹敵しつつ、状態サイズを半分に抑えます。エンタープライズ導入では、同じハードウェアのフットプリントで推論スループットを実質的に倍増させます。
エージェント主導のワークフロー: 組織が並列のエージェント主導のワークフロー(自動コード生成やリアルタイムのカスタマーサービスエージェントのようなもの)へ移行するにつれて、低遅延生成の需要は指数関数的に増加します。Mamba-3 は、これらのタスク中に GPU ハードウェアが「冷えた」状態のまま放置されないように特別に設計されています。
ハイブリッドの利点: 研究者たちは、エンタープライズAIの未来は ハイブリッドモデル にあると予測しています。Mamba-3 を自己注意と組み合わせることで、SSMs の効率的な「メモリ」機能と、Transformers の正確な「データベース」ストレージを組み合わせることができます。
入手可能性、ライセンス、使用について
Mamba-3 は単なる理論的な研究論文ではなく、すぐに利用可能な完全に実現されたオープンソースリリースです。モデルコードは GitHub に公開されています。
このプロジェクトは Apache-2.0 ライセンスの下で公開されています。これは、独自のソースコードの開示を求めず、自由な使用、改変、商業的配布を許可する、寛容かつビジネスフレンドリーなライセンスです。
このリリースは、長い文脈を扱うアプリケーションを構築する開発者、リアルタイム推論エージェント、または大量の本番環境で GPU コストを削減したいと考える人に適しています。
State Space Models (SSM) 革命を牽引
このリリースはソーシャルメディア上で熱狂的な歓迎を受け、特にプロジェクトが「学生主導」であるという点に関して話題になりました。 Gu, X/Twitter の略歴 には彼を「ssm革命を率いる人物」と記されており、Aakash Lahoti および Kevin Y. Li を含む学生リーダーへ全ての功績を帰しました。
.Gu のスレッド デザインに対するチームの満足度を強調した:
「最終的なモデル設計には私たちはかなり満足しています!3つの中核的な方法論的変更は、(私の意見では)いくつかの優雅な数学と手法に触発されています。」
エージェント主導のワークフローが推論需要を天井まで押し上げる中、Mamba-3 の登場は、AI の未来が単に最大のモデルを持つことだけではなく、最も効率的なモデルを持つことになるのではないかと示唆しています。
Mamba-3 は、SSM を現代のハードウェアの現実にうまく合わせ直し、Transformer の時代においても古典的制御理論の原理が依然として重要な役割を果たすことを証明しています。



