[P] NVIDIA B200 と AMD MI355X 上で同一の推論スタックにより動作する Gemma 4、Blackwell で vLLM に対してスループットが 15% 向上

Reddit r/MachineLearning / 2026/4/3

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

Google DeepMind は、31B の密結合モデルと、MoE ベースの 26B A4B モデルの Gemma 4 を公開した。どちらも最大 256K のコンテキストに対応し、テキスト、画像、動画、ダイナミック解像度といったネイティブなマルチモーダル入力をサポートする。
この記事では、Gemma 4 は NVIDIA B200 と AMD MI355X 上で「同一の推論スタックから」動かせると主張しており、主要な GPU/アクセラレータ間での移植性が示唆されている。
NVIDIA B200 上では、著者が vLLM に比べて出力スループットで約 15% の優位性を報告しており、高スループットな推論環境での性能向上が期待できる。
ユーザーが自らインフラを構築せずに Gemma 4 を試せる無料の Modular プレイグラウンドが提供されている。

Google DeepMindが本日Gemma 4を公開しました：

Gemma 4 31B: 高密度、256Kコンテキスト、効率性と長文コンテキスト品質を狙った再設計アーキテクチャ

Gemma 4 26B A4B: MoE（Mixture of Experts）、総計26B / 1フォワードパスあたり4Bアクティブ、256Kコンテキスト

どちらもネイティブにマルチモーダルです（テキスト、画像、動画、動的解像度）。

ローンチ当日の初日から、同じスタックでNVIDIA B200およびAMD MI355X上に両方とも動かせる状態になっています。B200ではvLLMと比べて出力スループットが15%高いことを確認しています（必要なら、手法の詳細についてもっと共有することもできます）。

何も立ち上げずに試したい場合は無料のプレイグラウンド：https://www.modular.com/#playground