| みなさん、こんにちは。 最近このフォーラムでローカルLLMの話をたくさん追いかけていて、皆さんからいろいろ学ばせてもらいました! これが初投稿です。できれば最後じゃないといいなと思っています。自由時間にデュアルGPU構成を試してみたところ、面白いベンチマークがいくつか取れたので共有したいです。 ハードウェア仕様:
ソフトウェア構成:
「Llama_benchy」の指標:
最近はQwen3.5シリーズでかなり遊べています。特に35BA3Bモデルが気に入っています。以前の環境(4070 + RAMオフロード)でも速かったのですが、RTX 3060を追加したことで、はるかに余裕が出ました。以下の4モデルをテストしました:
全モデルで max_concurrent_preds=1、完全GPUオフロード、flash attentionを有効化しています。 ベンチマーク結果:分析:
「新しいGPU」の比較 RTX 3060が、私のいちばん好きなモデルであるQwen3.5 35B-A3Bに、以前の環境(4070 + CPU + RAMオフロード)と比べてどれくらい役立っているのか確認したくなりました。 分析: トークン生成スループット - デュアルGPU vs シングルGPU 最初の応答までの時間 - デュアルGPU vs シングルGPU
VRAM & 利用状況のメモ: 私は完璧な計測ができていません(主にタスクマネージャだけ)。そのため、この点は割り引いて見てください。RTX 4070は40〜45%あたりで推移しており、3060は50〜60%の間でした。 メモリの分割は少し変でした。4070がプライマリであるにもかかわらず、3060が常にVRAMのより大きな割合(Windowsの基本使用量を除いて、さらに約300〜400 MB)を取っているように見えました。
結論:
最終アドバイス: デュアルGPU構成で迷っているなら、やってみましょう!ただし現実的な期待は持ってください。趣味用途には素晴らしいですし、正直なところ、掘り出し物を探して導入していろいろ試すのがとても楽しいです。 セットアップや、客観的な品質テストのためのツールを改善するための提案があれば、ぜひ教えてください! 締めのコメント:最後に Gemma4-26B-A4B の文法上の問題を修正しました。かなり速かったのですが、qwen2.5 と gemma2 が最新モデルだと主張し続けていて、「正しいバージョン番号を使わないと信頼を失う」とも付け加えていました [link] [comments] |
パフォーマンスベンチマーク - デュアルGPU環境(RTX 4070 + RTX 3060)での Qwen3.5 と Gemma4
Reddit r/LocalLLaMA / 2026/4/14
📰 ニュース
要点
- ユーザーが、Windows 11上でデュアルGPU構成(RTX 4070をプライマリ、PCIe x2スロット経由でRTX 3060をセカンダリ)として動作させた際のローカルLLMパフォーマンスのベンチマークを共有し、Qwen3.5とGemma4モデルの比較を行っています。
- テストではLMStudio(v0.4.11)を使用し、4070を優先する分割戦略と、ロード時のガードレールを緩めた設定を採用しています。スループットは、異なるプロンプト長と生成長に対して pp12000、tg32、tg4096 を用いて測定しています。
- 報告された結果は、追加したRTX 3060によってQwen3.5(特に35BA3B)に「余裕(headroom)」が生まれることを示唆しています。これは、より以前のシングルGPU方式がRAMへのオフロードにより依存していたのとは対照的です。
- ベンチマークの焦点は、2つのQwen3.5 GGUFモデル(Q4KSおよびQ4KM)と、Gemma4 26B GGUFモデル(A4B-it)の「50kコンテキスト」バリアントです。実際の「オープンコード」や、短文/長文の応答ワークロードをシミュレートすることを目的としています。
- 本投稿は主に、ローカル推論のパフォーマンスとVRAM容量を最適化したい愛好家向けの、実践的なハードウェア/ソフトウェア構成と測定レポートです。