パフォーマンスベンチマーク - デュアルGPU環境(RTX 4070 + RTX 3060)での Qwen3.5 と Gemma4

Reddit r/LocalLLaMA / 2026/4/14

📰 ニュース

要点

  • ユーザーが、Windows 11上でデュアルGPU構成(RTX 4070をプライマリ、PCIe x2スロット経由でRTX 3060をセカンダリ)として動作させた際のローカルLLMパフォーマンスのベンチマークを共有し、Qwen3.5とGemma4モデルの比較を行っています。
  • テストではLMStudio(v0.4.11)を使用し、4070を優先する分割戦略と、ロード時のガードレールを緩めた設定を採用しています。スループットは、異なるプロンプト長と生成長に対して pp12000、tg32、tg4096 を用いて測定しています。
  • 報告された結果は、追加したRTX 3060によってQwen3.5(特に35BA3B)に「余裕(headroom)」が生まれることを示唆しています。これは、より以前のシングルGPU方式がRAMへのオフロードにより依存していたのとは対照的です。
  • ベンチマークの焦点は、2つのQwen3.5 GGUFモデル(Q4KSおよびQ4KM)と、Gemma4 26B GGUFモデル(A4B-it)の「50kコンテキスト」バリアントです。実際の「オープンコード」や、短文/長文の応答ワークロードをシミュレートすることを目的としています。
  • 本投稿は主に、ローカル推論のパフォーマンスとVRAM容量を最適化したい愛好家向けの、実践的なハードウェア/ソフトウェア構成と測定レポートです。
Performance Benchmark - Qwen3.5 & Gemma4 on dual GPU setup (RTX 4070 + RTX 3060)

みなさん、こんにちは。

最近このフォーラムでローカルLLMの話をたくさん追いかけていて、皆さんからいろいろ学ばせてもらいました! これが初投稿です。できれば最後じゃないといいなと思っています。自由時間にデュアルGPU構成を試してみたところ、面白いベンチマークがいくつか取れたので共有したいです。

ハードウェア仕様:

  • CPU: 7700x(温度を抑えるために少しアンダーボルトしていますが、性能はストックと同等です)
  • RAM: 32 GB DDR5 @ 6000 MHz
  • マザーボード: MSI B650 Tomahawk Wifi
  • GPU構成:
    • Primary: RTX 4070(12 GB)をPCI 4.0 x16で使用
    • Secondary: RTX 3060(12 GB)をPCI 4.0 x2で使用 (注: これは新しく追加したものです。私のマザーボードはチップセットから2つ目のスロットに関してx2しか対応していないのですが、予算を大きく壊さずに大きめのモデル用にVRAMを増やしたかったので、入れてみました。)

ソフトウェア構成:

  • OS: Win 11 + 最新のNvidiaドライバ(595.97)
  • LMStudio v0.4.11 Build 1 (執筆時点での最新)
    • 1年ほど前はOllamaから始めましたが、私のような趣味層だと、モデルのダウンロードや設定の変更がとても簡単なのでLMStudioに移りました。過去に以前、プロのサーバでllamacppも少し試しましたが、UIとセットアップのしやすさだけでLMStudioに戻ってきました。
  • 分割戦略: 優先順: 1. RTX 4070、2. RTX 3060
  • モデル読み込みのガードレール: 緩め

「Llama_benchy」の指標:

  • pp12000: 12,000トークン入力でのプロンプト処理 / プリフィル速度(私のopencodeでの使い方を模しています)。
  • tg32: 短い生成速度(素早い返信)。
  • tg4096: 継続生成速度(長い出力)。

最近はQwen3.5シリーズでかなり遊べています。特に35BA3Bモデルが気に入っています。以前の環境(4070 + RAMオフロード)でも速かったのですが、RTX 3060を追加したことで、はるかに余裕が出ました。以下の4モデルをテストしました:

  1. Bartowski Qwen3.5 35BA3B Q4KS @ 50kコンテキスト
  2. Jackrong qwopus3.5-27b-v3 Q4KM @ 50kコンテキスト
  3. Unsloth Gemma4-26BA4B Q4KM @ 60kコンテキスト
  4. Unsloth Gemma4-31B-IT Q4KM @ 15kコンテキスト(より高いコンテキストだとVRAMに収まりませんでした)

全モデルで max_concurrent_preds=1、完全GPUオフロード、flash attentionを有効化しています。

ベンチマーク結果:

プロンプト処理速度 - デュアルGPU

トークン生成 - デュアルGPU

最初の応答までの時間 - デュアルGPU

分析:

  • Gemma4 26B-A4B vs Qwen3.5 35B-A3B: Gemma4はプロンプト処理でわずかに速かったです(約15.6%速い)ですが、実際のトークン生成になるとQwen3.5が完全に勝ちました。短い出力で少なくとも20%速く、長い出力では29%速いです(tg4096)。ただし、出力がどれだけ役に立つかという点では、(品質をテストした後で)将来的にgemma4が私にとって勝つ可能性もあります。実際、gemma4がどれほどトークン効率が良いのかについて、他の投稿や比較でそのようなことを見かけているからです。
  • 速度: 79 tok/s前後の速度を見たのは正直驚きでした。あまりにすごくて、LMStudioのUIが実際に追いつくのに苦労していました!
  • 「Big Boys」(Qwopus-27b-v3 vs Gemma4-31B-IT): MoEモデルに比べて速度が明確に落ちました。Qwopusはtg4096でGemma4-31Bより11%速く、プロンプト処理では20%速いです。プロンプト側のブーストはかなり大きかったのに、生成速度は「体感的に」あまり差がない感じでした(27Bで18.23 tok/s、31Bで16.29 tok/s)。
  • コンテキストのトレードオフ: Gemma4の追加の4Bパラメータが、私のコンテキストウィンドウをかなり圧迫しています(Qwopusなら50kなのに、Gemma4は15kしか使えません)。コーディング用途では致命的になるかもしれませんが、深いアーキテクチャ系のタスクにはまだ役立つ可能性はあります。このアーキテクチャはまだかなり新しいので、qwen3.5のように最適化するための改良が今後もっと出てくると期待しています。

「新しいGPU」の比較

RTX 3060が、私のいちばん好きなモデルであるQwen3.5 35B-A3Bに、以前の環境(4070 + CPU + RAMオフロード)と比べてどれくらい役立っているのか確認したくなりました。

分析:

プロンプト処理 - デュアルGPU vs シングルGPU

トークン生成スループット - デュアルGPU vs シングルGPU

最初の応答までの時間 - デュアルGPU vs シングルGPU

  • 速度のブーストがヤバい!!
  • プロンプト処理: これは以前の私の弱点でした。10k〜30kトークンになるたびに、ずっと待たされる感じでした。新しい構成では、ブーストが約1.5倍速い!
  • トークン生成: 長いコンテキスト(tg4096)では、約44%速い(79 tok/s)です。家庭用セットアップでこういう速度が出るのを見るのは本当にすごいです。

VRAM & 利用状況のメモ: 私は完璧な計測ができていません(主にタスクマネージャだけ)。そのため、この点は割り引いて見てください。RTX 4070は40〜45%あたりで推移しており、3060は50〜60%の間でした。

メモリの分割は少し変でした。4070がプライマリであるにもかかわらず、3060が常にVRAMのより大きな割合(Windowsの基本使用量を除いて、さらに約300〜400 MB)を取っているように見えました。

  • Qwopus 27B: RTX 3060: 10.9 GB | RTX 4070: 10.4 GB
  • Qwen3.5 35B: RTX 3060: 11.3 GB | RTX 4070: 10.9 GB
  • Gemma4 31B: RTX 3060: 11.4 GB | RTX 4070: 10.4 GB
  • Gemma4 26B: RTX 3060: 9.7 GB | RTX 4070: 11.5 GB (4070の利用率がQwen3.5と比べて高い唯一の例です。これが、プロンプト処理速度が速い理由に影響している可能性があります)

結論:

  • 3060の購入に後悔なし。 PCIe 4.0 x2スロットがどれほど足を引っ張っているのかはまだ分かりませんが、これまでのところ十分に良さそうです。そのボトルネックの検証について、何か知見がある方がいれば教えてください!
  • Qwen3.5 35B-A3B はコーディングの主力で、日々大活躍しています。過度に思考に時間がかかってしまう点を減らしてくれるような Opus の蒸留フィネチューン (Jackrong、何か更新あります?) を待っているところです。これまでのところ、qwen3.5 シリーズに対する私の唯一の悩みです。
  • Qwopus 27B v3 は十分に速いので、ようやく実際の出力品質をテストし始められます。
  • 最終アドバイス: デュアルGPU構成で迷っているなら、やってみましょう!ただし現実的な期待は持ってください。趣味用途には素晴らしいですし、正直なところ、掘り出し物を探して導入していろいろ試すのがとても楽しいです。

    セットアップや、客観的な品質テストのためのツールを改善するための提案があれば、ぜひ教えてください!

    締めのコメント:最後に Gemma4-26B-A4B の文法上の問題を修正しました。かなり速かったのですが、qwen2.5 と gemma2 が最新モデルだと主張し続けていて、「正しいバージョン番号を使わないと信頼を失う」とも付け加えていました

    submitted by /u/DracoTorpedo
    [link] [comments]

    パフォーマンスベンチマーク - デュアルGPU環境(RTX 4070 + RTX 3060)での Qwen3.5 と Gemma4 | AI Navigate