ベンチマーク:Llama.cppでWindows 11とLubuntu 26.04を比較(RTX 5080 + i9-14900KF)— ギャップは想像以上だった

Reddit r/LocalLLaMA / 2026/4/26

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 著者は、RTX 5080とi9-14900KFを使用し、Llama.cppでWindows 11(25H2)とLubuntu 26.04をベンチマークし、Windowsでどれだけ性能が失われるのかを確認しました。

人生のほとんどをWindowsユーザーとして過ごしてきた私として(若い頃に触れてしまったので憎まないでください)、「どれくらい(もし何か)パフォーマンスを損ねているのか?」が気になりました。そこで、当然のことながらベンチマークをいくつか実行しました。

セットアップ:

  • OS: Windows 11 25H2 vs Lubuntu 26.04
  • エンジン: Llama.cpp b8929、CUDA 13.1(Windows向けに公式のプリビルドをダウンロードし、LubuntuではCMakeで自分でビルドしました)
  • CPU: Intel Core i9-14900KF
  • RAM: 64GB DDR5 6800 MT/s
  • GPU: RTX 5080 16GB VRAM
  • ドライバ: 596.32(Windows)/ 595.x(Lubuntu)

結果(平均)

いくつかの異なるモデルに対して、2500+トークンのプロンプトを llama-cli で実行しました。

(注: Gemma 4、OSS-20B、Qwen3.6 は完全にGPUへオフロードしました。Qwen3.5 と OSS-120B は -t 8 -tb 8 -fit on を使ったハイブリッド(CPU/GPU)実行です)

モデル Win 11(Prompt) Lubuntu(Prompt) Prompt Diff Win 11(Gen) Lubuntu(Gen) Gen Diff
Gemma-4-E4B-it(Q8_K_XL) 6,232 t/s 7,587 t/s + 21.7% 111.7 t/s 116.7 t/s + 4.4%
Qwen3.5-35B-A3B(Q8_K_XL) 305 t/s 742 t/s + 143.2% 48.1 t/s 52.2 t/s + 8.5%
GPT-OSS-20B(MXFP4) 7,619 t/s 8,140 t/s + 6.8% 195.8 t/s 206.2 t/s + 5.3%
Qwen3.6-27B(IQ4_XS) 2,077 t/s 2,235 t/s + 7.6% 43.8 t/s 46.0 t/s + 5.0%
GPT-OSS-120B(MXFP4) 310 t/s 649 t/s + 109.3% 43.4 t/s 44.9 t/s + 3.4%

要点

  1. 生成スピード: Lubuntu は、トークン生成について常に 4%〜8%程度速いです。良い改善ではありますが、読書(表示)速度だけを重視するなら、OSの乗り換えを正当化するほどではないかもしれません。
  2. プロンプト処理(完全オフロード): Linux は GPU上でのプロンプト評価を明らかに高速に処理します。低めのケースでも 6〜7% 速く、Gemma 4 の実行では最大 21% 速いです。
  3. プロンプト処理(CPU/GPU ハイブリッド): ここが狂っています。Llama.cpp がCPUに頼らざるを得なかったモデル(-t 8 -tb 8 のケース)では、Linux がプロンプト処理速度で Windows を 100%〜140% 以上の差で完全に打ち砕きました。

生の実行ログ:

Windows 11:

.
llama-cli -m "E:\models\unsloth\gemma-4-E4B-it-GGUF\gemma-4-E4B-it-UD-Q8_K_XL.gguf" -c 8192 -mli -fa on --temp 1.0 --top-k 64 --top-p 0.95 --min-p 0.0 -ngl all -np 1 --no-mmap --jinja --chat-template-kwargs '{\"enable_thinking\":true}' [ Prompt: 4038.3 t/s | Generation: 111.6 t/s ][ Prompt: 7341.7 t/s | Generation: 111.8 t/s ][ Prompt: 6432.1 t/s | Generation: 111.9 t/s ][ Prompt: 7116.3 t/s | Generation: 111.7 t/s ] .
llama-cli -m "E:\models\unsloth\Qwen3.5-35B-A3B-GGUF\Qwen3.5-35B-A3B-UD-Q8_K_XL.gguf" -c 16384 -mli -fa on --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 -np 1 --no-mmap --chat-template-kwargs "{\"enable_thinking\":true}" -t 8 -tb 8 -fit on -fitt 160M [ Prompt: 296.5 t/s | Generation: 48.4 t/s ][ Prompt: 308.6 t/s | Generation: 48.0 t/s ][ Prompt: 313.7 t/s | Generation: 48.2 t/s ][ Prompt: 302.1 t/s | Generation: 47.8 t/s ] .
llama-cli -m "E:\models\lmstudio-community\gpt-oss-20b-GGUF\gpt-oss-20b-MXFP4.gguf" -c 32768 -mli -fa on --temp 1.0 --top-k 0 --top-p 1.0 --min-p 0.0 -ngl all -np 1 --no-mmap --jinja [ Prompt: 7651.2 t/s | Generation: 195.6 t/s ][ Prompt: 7661.0 t/s | Generation: 196.6 t/s ][ Prompt: 7653.2 t/s | Generation: 196.6 t/s ][ Prompt: 7510.8 t/s | Generation: 194.6 t/s ] .
llama-cli -m "E:\models\unsloth\Qwen3.6-27B-GGUF\Qwen3.6-27B-IQ4_XS.gguf" -c 8192 -mli -fa on --temp 1.0 --top-k 20 --top-p 0.95 --min-p 0.0 --presence_penalty 1.5 -ngl all -np 1 --no-mmap --jinja [ Prompt: 1859.4 t/s | Generation: 43.2 t/s ][ Prompt: 2132.9 t/s | Generation: 43.0 t/s ][ Prompt: 2153.1 t/s | Generation: 44.5 t/s ][ Prompt: 2166.1 t/s | Generation: 44.5 t/s ] .
llama-cli -m "E:\models\lmstudio-community\gpt-oss-120b-GGUF\gpt-oss-120b-MXFP4-00001-of-00002.gguf" -c 16384 -mli -fa on --temp 1.0 --top-k 0 --top-p 1.0 --min-p 0.0 -np 1 --no-mmap --jinja -t 8 -tb 8 -fit on -fitt 160M [ Prompt: 324.3 t/s | Generation: 43.3 t/s ][ Prompt: 320.8 t/s | Generation: 43.4 t/s ][ Prompt: 284.9 t/s | Generation: 43.4 t/s ]

Lubuntu 26.04:

./llama-cli -m /home/user/models/gemma-4-E4B-it-GGUF/gemma-4-E4B-it-UD-Q8_K_XL.gguf -c 8192 -mli -fa on --temp 1.0 --top-k 64 --top-p 0.95 --min-p 0.0 -ngl all -np 1 --no-mmap --jinja --chat-template-kwargs "{\"enable_thinking\":true}" [ Prompt: 7621,5 t/s | Generation: 116,6 t/s ][ Prompt: 7537,8 t/s | Generation: 116,6 t/s ][ Prompt: 7665,7 t/s | Generation: 116,7 t/s ][ Prompt: 7523,5 t/s | Generation: 116,8 t/s ] ./llama-cli -m /home/user/models/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q8_K_XL.gguf -c 16384 -mli -fa on --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 -np 1 --no-mmap --chat-template-kwargs "{\"enable_thinking\":true}" -t 8 -tb 8 -fit on -fitt 160M [ Prompt: 739,4 t/s | Generation: 52,3 t/s ][ Prompt: 744,6 t/s | Generation: 52,0 t/s ][ Prompt: 746,3 t/s | Generation: 52,3 t/s ][ Prompt: 741,3 t/s | Generation: 52,2 t/s ] ./llama-cli -m /home/user/models/gpt-oss-20b-GGUF/gpt-oss-20b-MXFP4.gguf -c 32768 -mli -fa on --temp 1.0 --top-k 0 --top-p 1.0 --min-p 0.0 -ngl all -np 1 --no-mmap --jinja [ Prompt: 7819,8 t/s | Generation: 205,7 t/s ][ Prompt: 8250,8 t/s | Generation: 206,4 t/s ][ Prompt: 8254,9 t/s | Generation: 206,9 t/s ][ Prompt: 8237,0 t/s | Generation: 206,0 t/s ] ./llama-cli -m /home/user/models/Qwen3.6-27B-GGUF/Qwen3.6-27B-IQ4_XS.gguf -c 8192 -mli -fa on --temp 1.0 --top-k 20 --top-p 0.95 --min-p 0.0 --presence_penalty 1.5 -ngl all -np 1 --no-mmap --jinja [ Prompt: 2238,1 t/s | Generation: 46,0 t/s ][ Prompt: 2232,3 t/s | Generation: 46,0 t/s ][ Prompt: 2235,4 t/s | Generation: 46,0 t/s ][ Prompt: 2237,3 t/s | Generation: 46,0 t/s ] ./llama-cli -m /home/user/models/gpt-oss-120b-GGUF/gpt-oss-120b-MXFP4-00001-of-00002.gguf -c 16384 -mli -fa on --temp 1.0 --top-k 0 --top-p 1.0 --min-p 0.0 -np 1 --no-mmap --jinja -fit on -fitt 160M -t 8 -tb 8 [ Prompt: 650,0 t/s | Generation: 45,2 t/s ][ Prompt: 647,8 t/s | Generation: 45,0 t/s ][ Prompt: 650,3 t/s | Generation: 44,7 t/s ][ Prompt: 649,0 t/s | Generation: 45,0 t/s ]
  /u/Ok_Mine189 によって投稿されました
[リンク] [コメント]