広告

[P] NVIDIA B200 と AMD MI355X 上で同一の推論スタックにより動作する Gemma 4、Blackwell で vLLM に対してスループットが 15% 向上

Reddit r/MachineLearning / 2026/4/3

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Google DeepMind は、31B の密結合モデルと、MoE ベースの 26B A4B モデルの Gemma 4 を公開した。どちらも最大 256K のコンテキストに対応し、テキスト、画像、動画、ダイナミック解像度といったネイティブなマルチモーダル入力をサポートする。
  • この記事では、Gemma 4 は NVIDIA B200 と AMD MI355X 上で「同一の推論スタックから」動かせると主張しており、主要な GPU/アクセラレータ間での移植性が示唆されている。
  • NVIDIA B200 上では、著者が vLLM に比べて出力スループットで約 15% の優位性を報告しており、高スループットな推論環境での性能向上が期待できる。
  • ユーザーが自らインフラを構築せずに Gemma 4 を試せる無料の Modular プレイグラウンドが提供されている。

Google DeepMindが本日Gemma 4を公開しました:

Gemma 4 31B: 高密度、256Kコンテキスト、効率性と長文コンテキスト品質を狙った再設計アーキテクチャ

Gemma 4 26B A4B: MoE(Mixture of Experts)、総計26B / 1フォワードパスあたり4Bアクティブ、256Kコンテキスト

どちらもネイティブにマルチモーダルです(テキスト、画像、動画、動的解像度)。

ローンチ当日の初日から、同じスタックでNVIDIA B200およびAMD MI355X上に両方とも動かせる状態になっています。B200ではvLLMと比べて出力スループットが15%高いことを確認しています(必要なら、手法の詳細についてもっと共有することもできます)。

何も立ち上げずに試したい場合は無料のプレイグラウンド:https://www.modular.com/#playground

投稿者: /u/carolinedfrasca
[リンク] [コメント]

広告