H100上でのQwen 3.6 27B/Qwen 3.6 35B A3B/Gemma 4のスループットとTTFT比較

Reddit r/LocalLLaMA / 2026/4/25

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • vLLMを使った単一H100(80GB)環境で、Qwen 3.6 27B、Qwen 3.6 35B A3B、Gemma 4各モデルの性能を、スループット(tokens/sec)とTTFT(最初のトークンまでの時間)で比較した。
  • Gemma 4のMoE系(Gemma 4 E2B-it)が大きく優位で、同一GPU上で16同時リクエスト時に約3,180 TPSを出し、Gemma 4 31B denseの約226 TPSに対して圧倒した。
  • TTFTの差はさらに大きく、Gemma 4 E2B-itが約55msなのに対し、Gemma 4 31B denseは約4.1秒とされ、ユーザー体験の観点で大きな遅延差が示された。
  • FP8量子化が重要な最適化で、Qwen 3.6 35B MoEをFP8にするとBF16より約73%速くなりTTFTも低下したが、dense 27Bは約27%の改善に留まった。
  • dense 27B/31Bは高い同時実行負荷で単一GPU上では劣化しやすく、遅延重視ならGemma 4のMoEを優先し、品質と速度のバランスならQwen 3.6 35B-A3B(FP8)、dense 31Bはバッチ用途として扱うべきだという提案が示された。
Throughput and TTFT comparisons of Qwen 3.6 27B, Qwen 3.6 35B A3B and Gemma 4 models on H100

「新しい小型〜中型モデルのうち、実際に単一のH100で動かす価値があるのはどれか」を把握したかったので、8つをきちんとvLLMベンチマークにかけて、結果を記録しました。

セットアップはシンプルでした。H100 80GBを1枚、vLLM 0.19.1、内蔵のvllm bench serveツール、1回の実行あたり100プロンプト、入力トークン128、出力トークン128。各モデルを4種類の同時実行数(1、4、8、16の同時リクエスト)で動かし、次の2点を測定しました:

- トークン/秒でのスループット。リクエストが流れている状態で、GPUが全体としてどれだけ生成できるかを示します。

- 最初のトークンまでの時間(ms)。ユーザーが何かが表示されるまでにどれくらい待つかです。これが、チャットがキビキビして感じるか、もたついて感じるかを決めます。

主な発見は、小型のGemmaエキスパートモデルが圧倒的に支配的だったことです。16人の同時ユーザー時、Gemma 4 E2B-itは同じGPUでGemma 4 31B denseが226しか出せなかったのに対し、3,180 TPSを押し出しました。モデル全体の大きさが1/15のものから約14倍のスループットということです。TTFTの差はさらに大きく、55 ms 対 4.1秒でした。瞬時に感じる製品と、壊れているように感じる製品の違いです。

FP8量子化が2つ目の際立った点でした。FP8のQwen 3.6 35B MoEはBF16より73%高速で、TTFTも低いです。denseのQwen 27B同士ではFP8の伸びは27%にとどまり、一般に人々が通常期待する範囲に近い結果でした。MoEは、エキスパートの重みをメモリ上で移動することがボトルネックになっているため、FP8の恩恵がより大きくなります。FP8はその通信量を半分にするからです。つまりFP8は単なる省メモリではありません。H100上のMoEでは、通常の利用における実質的なデメリットなしに、本当に高速になります。

3つ目に知っておくべきことは、Gemma 31B denseが単一GPUの負荷下で崩れ落ちることです。低い同時実行数では問題ありませんが、4ユーザーを超えるとレイテンシが爆発します。1枚のH100で30Bクラスのモデルを提供したいなら、MoEにしてください。denseの31Bはバッチモデルとして扱いましょう。

今どのモデルを選ぶべきか迷っている人向けに、私の考えは以下です:

- レイテンシ重視のチャット:Gemma 4 E2B-it。ほかはどれも近くありません。

- 高スループットまたはバッチ:Gemma 4 E2B-it。より高い能力が必要ならE4Bにステップアップ。

- 品質と速度の最良のバランス:FP8のQwen 3.6 35B-A3B。適度なレイテンシでおよそ1,200 tok/s。

- スキップ:Dense 27B と 31B。同じハードウェア上では、MoEとFP8の兄弟たちに圧倒されます。

開示:完全な実験セットアップ、評価、分析は、私の最初のタスクプロンプトにもとづいてNeo AI Engineerがエンドツーエンドで実施し、その後私自身が手作業でも評価しました。

レイテンシが重要な処理に対して、現在あなたが投入しているSLMはどれですか?ぜひ教えてください。

投稿者 /u/gvij
[link] [comments]