ベンチマーク：Llama.cppでWindows 11とLubuntu 26.04を比較（RTX 5080 + i9-14900KF）— ギャップは想像以上だった

Reddit r/LocalLLaMA / 2026/4/26

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

著者は、RTX 5080とi9-14900KFを使用し、Llama.cppでWindows 11（25H2）とLubuntu 26.04をベンチマークし、Windowsでどれだけ性能が失われるのかを確認しました。

人生のほとんどをWindowsユーザーとして過ごしてきた私として（若い頃に触れてしまったので憎まないでください）、「どれくらい（もし何か）パフォーマンスを損ねているのか？」が気になりました。そこで、当然のことながらベンチマークをいくつか実行しました。

セットアップ：

OS: Windows 11 25H2 vs Lubuntu 26.04
エンジン: Llama.cpp b8929、CUDA 13.1（Windows向けに公式のプリビルドをダウンロードし、LubuntuではCMakeで自分でビルドしました）
CPU: Intel Core i9-14900KF
RAM: 64GB DDR5 6800 MT/s
GPU: RTX 5080 16GB VRAM
ドライバ: 596.32（Windows）/ 595.x（Lubuntu）

結果（平均）

いくつかの異なるモデルに対して、2500+トークンのプロンプトを llama-cli で実行しました。

（注: Gemma 4、OSS-20B、Qwen3.6 は完全にGPUへオフロードしました。Qwen3.5 と OSS-120B は -t 8 -tb 8 -fit on を使ったハイブリッド（CPU/GPU）実行です）

モデル	Win 11（Prompt）	Lubuntu（Prompt）	Prompt Diff	Win 11（Gen）	Lubuntu（Gen）	Gen Diff
Gemma-4-E4B-it（Q8_K_XL）	6,232 t/s	7,587 t/s	+ 21.7%	111.7 t/s	116.7 t/s	+ 4.4%
Qwen3.5-35B-A3B（Q8_K_XL）	305 t/s	742 t/s	+ 143.2%	48.1 t/s	52.2 t/s	+ 8.5%
GPT-OSS-20B（MXFP4）	7,619 t/s	8,140 t/s	+ 6.8%	195.8 t/s	206.2 t/s	+ 5.3%
Qwen3.6-27B（IQ4_XS）	2,077 t/s	2,235 t/s	+ 7.6%	43.8 t/s	46.0 t/s	+ 5.0%
GPT-OSS-120B（MXFP4）	310 t/s	649 t/s	+ 109.3%	43.4 t/s	44.9 t/s	+ 3.4%

要点

生成スピード: Lubuntu は、トークン生成について常に 4%〜8%程度速いです。良い改善ではありますが、読書（表示）速度だけを重視するなら、OSの乗り換えを正当化するほどではないかもしれません。
プロンプト処理（完全オフロード）: Linux は GPU上でのプロンプト評価を明らかに高速に処理します。低めのケースでも 6〜7% 速く、Gemma 4 の実行では最大 21% 速いです。
プロンプト処理（CPU/GPU ハイブリッド）: ここが狂っています。Llama.cpp がCPUに頼らざるを得なかったモデル（-t 8 -tb 8 のケース）では、Linux がプロンプト処理速度で Windows を 100%〜140% 以上の差で完全に打ち砕きました。

生の実行ログ:

Windows 11:

.
llama-cli -m "E:\models\unsloth\gemma-4-E4B-it-GGUF\gemma-4-E4B-it-UD-Q8_K_XL.gguf" -c 8192 -mli -fa on --temp 1.0 --top-k 64 --top-p 0.95 --min-p 0.0 -ngl all -np 1 --no-mmap --jinja --chat-template-kwargs '{\"enable_thinking\":true}' [ Prompt: 4038.3 t/s | Generation: 111.6 t/s ][ Prompt: 7341.7 t/s | Generation: 111.8 t/s ][ Prompt: 6432.1 t/s | Generation: 111.9 t/s ][ Prompt: 7116.3 t/s | Generation: 111.7 t/s ] .
llama-cli -m "E:\models\unsloth\Qwen3.5-35B-A3B-GGUF\Qwen3.5-35B-A3B-UD-Q8_K_XL.gguf" -c 16384 -mli -fa on --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 -np 1 --no-mmap --chat-template-kwargs "{\"enable_thinking\":true}" -t 8 -tb 8 -fit on -fitt 160M [ Prompt: 296.5 t/s | Generation: 48.4 t/s ][ Prompt: 308.6 t/s | Generation: 48.0 t/s ][ Prompt: 313.7 t/s | Generation: 48.2 t/s ][ Prompt: 302.1 t/s | Generation: 47.8 t/s ] .
llama-cli -m "E:\models\lmstudio-community\gpt-oss-20b-GGUF\gpt-oss-20b-MXFP4.gguf" -c 32768 -mli -fa on --temp 1.0 --top-k 0 --top-p 1.0 --min-p 0.0 -ngl all -np 1 --no-mmap --jinja [ Prompt: 7651.2 t/s | Generation: 195.6 t/s ][ Prompt: 7661.0 t/s | Generation: 196.6 t/s ][ Prompt: 7653.2 t/s | Generation: 196.6 t/s ][ Prompt: 7510.8 t/s | Generation: 194.6 t/s ] .
llama-cli -m "E:\models\unsloth\Qwen3.6-27B-GGUF\Qwen3.6-27B-IQ4_XS.gguf" -c 8192 -mli -fa on --temp 1.0 --top-k 20 --top-p 0.95 --min-p 0.0 --presence_penalty 1.5 -ngl all -np 1 --no-mmap --jinja [ Prompt: 1859.4 t/s | Generation: 43.2 t/s ][ Prompt: 2132.9 t/s | Generation: 43.0 t/s ][ Prompt: 2153.1 t/s | Generation: 44.5 t/s ][ Prompt: 2166.1 t/s | Generation: 44.5 t/s ] .
llama-cli -m "E:\models\lmstudio-community\gpt-oss-120b-GGUF\gpt-oss-120b-MXFP4-00001-of-00002.gguf" -c 16384 -mli -fa on --temp 1.0 --top-k 0 --top-p 1.0 --min-p 0.0 -np 1 --no-mmap --jinja -t 8 -tb 8 -fit on -fitt 160M [ Prompt: 324.3 t/s | Generation: 43.3 t/s ][ Prompt: 320.8 t/s | Generation: 43.4 t/s ][ Prompt: 284.9 t/s | Generation: 43.4 t/s ]

Lubuntu 26.04:

./llama-cli -m /home/user/models/gemma-4-E4B-it-GGUF/gemma-4-E4B-it-UD-Q8_K_XL.gguf -c 8192 -mli -fa on --temp 1.0 --top-k 64 --top-p 0.95 --min-p 0.0 -ngl all -np 1 --no-mmap --jinja --chat-template-kwargs "{\"enable_thinking\":true}" [ Prompt: 7621,5 t/s | Generation: 116,6 t/s ][ Prompt: 7537,8 t/s | Generation: 116,6 t/s ][ Prompt: 7665,7 t/s | Generation: 116,7 t/s ][ Prompt: 7523,5 t/s | Generation: 116,8 t/s ] ./llama-cli -m /home/user/models/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q8_K_XL.gguf -c 16384 -mli -fa on --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 -np 1 --no-mmap --chat-template-kwargs "{\"enable_thinking\":true}" -t 8 -tb 8 -fit on -fitt 160M [ Prompt: 739,4 t/s | Generation: 52,3 t/s ][ Prompt: 744,6 t/s | Generation: 52,0 t/s ][ Prompt: 746,3 t/s | Generation: 52,3 t/s ][ Prompt: 741,3 t/s | Generation: 52,2 t/s ] ./llama-cli -m /home/user/models/gpt-oss-20b-GGUF/gpt-oss-20b-MXFP4.gguf -c 32768 -mli -fa on --temp 1.0 --top-k 0 --top-p 1.0 --min-p 0.0 -ngl all -np 1 --no-mmap --jinja [ Prompt: 7819,8 t/s | Generation: 205,7 t/s ][ Prompt: 8250,8 t/s | Generation: 206,4 t/s ][ Prompt: 8254,9 t/s | Generation: 206,9 t/s ][ Prompt: 8237,0 t/s | Generation: 206,0 t/s ] ./llama-cli -m /home/user/models/Qwen3.6-27B-GGUF/Qwen3.6-27B-IQ4_XS.gguf -c 8192 -mli -fa on --temp 1.0 --top-k 20 --top-p 0.95 --min-p 0.0 --presence_penalty 1.5 -ngl all -np 1 --no-mmap --jinja [ Prompt: 2238,1 t/s | Generation: 46,0 t/s ][ Prompt: 2232,3 t/s | Generation: 46,0 t/s ][ Prompt: 2235,4 t/s | Generation: 46,0 t/s ][ Prompt: 2237,3 t/s | Generation: 46,0 t/s ] ./llama-cli -m /home/user/models/gpt-oss-120b-GGUF/gpt-oss-120b-MXFP4-00001-of-00002.gguf -c 16384 -mli -fa on --temp 1.0 --top-k 0 --top-p 1.0 --min-p 0.0 -np 1 --no-mmap --jinja -fit on -fitt 160M -t 8 -tb 8 [ Prompt: 650,0 t/s | Generation: 45,2 t/s ][ Prompt: 647,8 t/s | Generation: 45,0 t/s ][ Prompt: 650,3 t/s | Generation: 44,7 t/s ][ Prompt: 649,0 t/s | Generation: 45,0 t/s ]

/u/Ok_Mine189 によって投稿されました
[リンク] [コメント]