Nvidia BlueField-4 STXがストレージにコンテキストメモリ層を追加し、エージェントAIのスループットギャップを埋める

VentureBeat / 2026/3/17

📰 ニュースDeveloper Stack & InfrastructureIndustry & Market Moves

共有:

要点

NvidiaはGTC 2026で、GPUと従来のストレージの間に専用のコンテキストメモリ層を挿入してAIエージェントのスループットを向上させる、モジュラー型のリファレンスアーキテクチャとしてBlueField-4 STXを発表した。
STX設計は、大規模言語モデルが使用するキー・バリュー（KV）キャッシュを対象とし、複数段階推論の間にコンテキストデータを容易に利用できるようにすることを目指している。
CMXコンテキストメモリストレージプラットフォームは、KVキャッシュデータ専用の高性能レイヤーを追加してGPUメモリを拡張し、一般ストレージへの往復回数を削減する。
NvidiaはSTXを商用製品ではなくリファレンスアーキテクチャと位置づけ、ストレージパートナーへのハードウェア設計図と、実装のためのソフトウェアプラットフォーム（DOCA Memoコンポーネントを含む）を提供する。
Nvidiaは、従来のCPUベースのストレージと比較して、STXが約5倍のトークンスループット、約4倍のエネルギー効率、約2倍のデータ取り込み速度を実現できると主張している。

AIエージェントが推論のペースに追いつけず作業途中で文脈を失うとき、それはモデルの問題ではなく、ストレージの問題だ。GTC 2026でNvidiaはBlueField-4 STXを発表した。これはGPUと従来のストレージの間に専用のコンテキストメモリ層を挿入するモジュラー型のリファレンスアーキテクチャであり、従来のCPUベースのストレージと比較してトークンスループットを5倍、エネルギー効率を4倍、データ取り込み速度を2倍と主張している。

STXが狙うボトルネックはKVキャッシュデータだ。KVキャッシュは、モデルがすでに処理した内容の記録であり、LLMが推論の各ステップで全体の文脈を再計算する必要がないよう中間計算を保存する。これが、エージェントがセッションをまたぎ、ツールの呼び出しや推論のステップ間で一貫した作業用メモリを維持することを可能にする。文脈窓が拡大し、エージェントがより多くの手順を踏むと、そのキャッシュもそれに合わせて成長する。GPUに戻るために従来のストレージ経路を辿らなければならないと、推論は遅くなり、GPUの利用率が低下する。

STXはNvidiaが直接販売する製品ではない。これは同社がストレージパートナーのエコシステムに提供しているリファレンスアーキテクチャで、ベンダーがそれを基盤にAIネイティブなインフラを構築できるようにする。

STXはGPUとディスクの間にコンテキストメモリ層を置く

このアーキテクチャは、ストレージ最適化された新しいBlueField-4プロセッサを中心に構築されており、NvidiaのVera CPUとConnectX-9 SuperNICを組み合わせている。Spectrum-X Ethernetネットワーキング上で動作し、NvidiaのDOCAソフトウェアプラットフォームを通じてプログラム可能だ。

最初のラックスケール実装はNvidia CMXコンテキストメモリストレージプラットフォームだ。CMXは、推論中に大規模言語モデルが生成するKVキャッシュデータの格納と取得を目的とした高性能なコンテキスト層でGPUメモリを拡張する。一般用途のストレージを経由せずにそのキャッシュにアクセス可能な状態を維持することが、CMXの設計意図だ。

「従来のデータセンターは高容量の汎用ストレージを提供するが、多くの手順、ツール、異なるセッションを跨って作業するAIエージェントとの対話に必要な反応性を一般的には欠いている」とNvidiaのハイパースケールおよび高性能計算担当副社長のイアン・バックは、記者やアナリストとのブリーフィングで述べた。

VentureBeatの質問に対し、BuckはSTXがハードウェアアーキテクチャとともにソフトウェアリファレンスプラットフォームを提供していることを確認した。NvidiaはDOCAを拡張して、ブリーフィングでDOCA Memoと呼ばれる新しいコンポーネントを含むようにしている。

「私たちのストレージ提供事業者はBlueField-4プロセッサのプログラマビリティを活用して、エージェントAIファクトリのストレージを最適化できる」と Buckは述べた。「リファレンスラックアーキテクチャを持つことに加えて、顧客に対してそれらの革新と最適化を提供するためのリファレンスソフトウェアプラットフォームも提供する。」

STXを基に構築するストレージパートナーは、ハードウェアのリファレンスデザインとソフトウェアのリファレンスプラットフォームの両方を得る。これはコンテキスト最適化ストレージのためのプログラム可能な基盤だ。

Nvidiaのパートナーリストは、ストレージの既存プレーヤーとAIネイティブのクラウドプロバイダーの両方を含む

STXベースのインフラを共同設計しているストレージ提供者にはCloudian、DDN、Dell Technologies、Everpure、Hitachi Vantara、HPE、IBM、MinIO、NetApp、Nutanix、VAST Data、WEKAが含まれる。STXベースのシステムを製造している製造パートナーにはAIC、Supermicro、Quanta Cloud Technologyが含まれる。

クラウドやAIの分野では、CoreWeave、Crusoe、IREN、Lambda、Mistral AI、Nebius、Oracle Cloud Infrastructure、Vultrがすべて、コンテキストメモリストレージのためにSTXにコミットしている。

企業向けストレージの既存プレーヤーとAIネイティブのクラウドプロバイダーの組み合わせこそ、注目すべきシグナルだ。NvidiaはSTXをハイパースケーラー向けの特別な製品として位置づけているわけではない。エージェント系AIワークロードを提供するストレージインフラを構築するすべての人に対するリファレンス標準として位置づけている。— これは、今後2〜3年の間に、規模のある多段推論を実行するほとんどの企業AI導入を含む可能性が高い。

STXベースのプラットフォームは、パートナーから2026年後半に提供される予定だ。

IBMが実運用におけるデータ層の問題を示す

IBMはSTX発表の両サイドに位置している。STXベースのインフラを共同設計するストレージ提供者として掲載されており、Nvidiaは別途、IBM Storage Scale System 6000を自社のGPUネイティブ分析基盤の高性能ストレージ基盤として選定したと確認した。これはDGXプラットフォームで認証・検証済みである。

IBMはGTCでNvidiaとのより広範な協力を発表した。その中には、IBMのwatsonx.data Presto SQLエンジンとNvidiaのcuDFライブラリとのGPU加速統合が含まれる。Nestléとの実運用Proof of Conceptは、その加速がどのようなものかを数値で示した：同社のOrder-to-Cashデータマートを横断するデータリフレッシュサイクルは186カ国、44テーブルを対象に、15分から3分に短縮された。IBMは83%のコスト削減と価格対性能の改善が30倍と報告した。

Nestléの結果は構造化分析ワークロードだ。直接的にはエージェント系推論の性能を示してはいない。しかし、それはIBMとNvidiaの共有する主張を具体化している。データ層こそ現在、企業AIの性能を制約している場所であり、それをGPUで加速することは運用上実質的な成果を生む。

なぜストレージ層が第一級のインフラ決定になるのか

STXは、ストレージ層が企業AIインフラ計画における第一級の関心事となっているというサインであり、GPU調達の後付けではない。汎用NASとオブジェクトストレージは、推論のレイテンシ要件に対してKVキャッシュデータを提供するようには設計されていなかった。Dell、HPE、NetApp、VAST Dataを含むパートナーのSTXベースのシステムが、Nvidiaが現実的な代替として提示しているものであり、DOCAソフトウェアプラットフォームが特定のエージェント系ワークロードのストレージ挙動を調整するためのプログラマビリティ層を提供する。

パフォーマンスの主張 — 5xトークンスループット、4xエネルギー効率、2xデータ取り込み速度 — は、従来のCPUベースのストレージアーキテクチャに対して測定されている。Nvidiaはそれらの比較の厳密な基準構成を明示していない。これらの数字がインフラの意思決定を左右する前に、基準となる構成を特定しておく価値がある。

プラットフォームは2026年後半にパートナーから提供される予定だ。ほとんどの主要なストレージベンダーがすでにSTXで共同設計していることを考えると、今後12か月でAIインフラのストレージ更新を評価している企業は、既存のベンダー関係からSTXベースの選択肢が提供されることを期待すべきだ。

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

Dev.to

テックキャリアに4年間も費やしている

Dev.to

[P] allToall アーキテクチャを用いたデータ並列で 3 台の Mac Minis M4 上で Llama3.2-1B-Instruct の推論！ | smolcluster

Reddit r/MachineLearning

NVIDIA V100 32GB が Qwen Coder 30B A3B Q5 で約115トークン/秒を達成

Reddit r/LocalLLaMA

実務作業のためにAIをローカルで運用する3〜4年計画を始めるべきか？

Reddit r/LocalLLaMA

Nvidia BlueField-4 STXがストレージにコンテキストメモリ層を追加し、エージェントAIのスループットギャップを埋める

要点

STXはGPUとディスクの間にコンテキストメモリ層を置く

Nvidiaのパートナーリストは、ストレージの既存プレーヤーとAIネイティブのクラウドプロバイダーの両方を含む

IBMが実運用におけるデータ層の問題を示す

なぜストレージ層が第一級のインフラ決定になるのか

関連記事

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

テックキャリアに4年間も費やしている

[P] allToall アーキテクチャを用いたデータ並列で 3 台の Mac Minis M4 上で Llama3.2-1B-Instruct の推論！ | smolcluster

NVIDIA V100 32GB が Qwen Coder 30B A3B Q5 で約115トークン/秒を達成

実務作業のためにAIをローカルで運用する3〜4年計画を始めるべきか？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer