8 GB VRAM搭載ゲーミングノートPC上での Qwen3.5-35B-3AB のベンチマーク: 100k コンテキスト窓で 26 t/s

Reddit r/LocalLLaMA / 2026/3/18

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

ベンチマークは、Qwen3.5-35B-A3B-UD-Q4_K_XL が 8 GB VRAM のゲーミングノートPC（RTX 4060）と 64 GB RAM 上で llama.cpp を用いて実行され、100k のコンテキスト窓で約 26 t/s の生成を達成した。
結果にはコンテキスト深度依存のスループットが含まれており、5k コンテキスト時には約 403.3 t/s（プロンプト）と約 34.9 t/s（生成）、100k コンテキストでは約 330.7 t/s（プロンプト）と約 26.2 t/s（生成）まで低下する。
測定の詳細は、ハードウェアとソフトウェアを明示しており：Lenovo 製ゲーミングノートPC、Windows、RTX 4060 8GB、i7-14000HX、64 GB RAM、llama.cpp（ビルド: c5a778891）、およびモデル Qwen3.5-35B-A3B-UD-Q4_K_XL（Unsloth）。
著者はアップグレードの検討事項として、Strix Halo 128 GB は主に同じモデルのより高い割り当てを可能にするだけで、より大きなモデルを有効にするわけではない、という考えを示し、RX 7900 XTX の検討もしている。これらの選択についての意見を歓迎している。

皆さん、こんにちは、

ここ最近いくつかのベンチマークを見かけ、このデータもあなた方の中には興味深いと感じられる方がいるかもしれないと思いました。

私はGPUが乏しく（8 GB VRAM）ですが、ローカルLLMを使って機密データ/コード/情報を処理する際には時々「大きな」コンテキストウィンドウが必要です。新世代のQwenモデルの35B-A3Bモデルはこの点で特に魅力的であることが証明されています。驚くべきことに、VRAM 8 GBと64 GB RAMを搭載した私のゲーミングノートPCは、100kのコンテキストサイズで約26 t/sを達成します。

機械設定：

Lenovo製ゲーミングノートPC（Windows）
GPU: NVIDIA GeForce RTX 4060 8 GB
CPU: i7-14000HX
64 GB RAM（DDR5 5200 MT/s）
バックエンド: llama.cpp（ビルド: c5a778891 (8233)）

モデル: Qwen3.5-35B-A3B-UD-Q4_K_XL (Unsloth)

ベンチマーク:

llama-bench.exe ` -m "Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf" ` -b 4096 -ub 1024 ` --flash-attn 1 ` -t 16 --cpu-mask 0x0000FFFF --cpu-strict 1 ` --prio 3 ` -ngl 99 -ncmoe 35 ` -d 5000,10000,20000,50000,100000 -r 1 ` --progress

コンテキストの深さ	プロンプト (pp512)	生成 (tg128)
5,000	403.28 t/s	34.93 t/s
10,000	391.45 t/s	34.51 t/s
20,000	371.26 t/s	33.40 t/s
50,000	353.15 t/s	29.84 t/s
100,000	330.69 t/s	26.18 t/s

私は現在、システムのアップグレードを検討しています。私の考えは Strix Halo 128 GB を入手することでしたが、現状の設定と比較すると、同じモデルのより高い量子化レベルで動作させると、わずかな速度向上しか得られないようです（参考: Strix Halo の最近のベンチマーク）、ただしより大きなモデルには対応していません。したがって、代わりに RX 7900 XTX の購入を検討しています。これについてのご意見をいただけると大変ありがたいです！

投稿者: /u/External_Dentist1928
[リンク] [コメント]

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

Dev.to

Claude CoworkでローカルMCPサーバーを動かせるようにするまで（見落とされがちなガイド）

Dev.to

学術作業において学生はAIの使用をどのように記録すべきか？

Dev.to

ソロ開発者として、86種目に対応するAI搭載のPWAフィットネストラッカーを作った

Dev.to

AIエージェントにプロダクトローンチ用の画像制作を頼んだ。返ってきたのはこんなものだった。

Dev.to

8 GB VRAM搭載ゲーミングノートPC上での Qwen3.5-35B-3AB のベンチマーク: 100k コンテキスト窓で 26 t/s

要点

関連記事

Mercorの競合Deccan AI、25Mドル調達、インドから専門家を確保

Claude CoworkでローカルMCPサーバーを動かせるようにするまで（見落とされがちなガイド）

学術作業において学生はAIの使用をどのように記録すべきか？

ソロ開発者として、86種目に対応するAI搭載のPWAフィットネストラッカーを作った

AIエージェントにプロダクトローンチ用の画像制作を頼んだ。返ってきたのはこんなものだった。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer