親切なリマインダー：推論はWindowsよりLinuxのほうがずっと速い

Reddit r/LocalLLaMA / 2026/3/29

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

Redditのユーザーが、同程度の量子化とコンテキスト長で2つのQwenモデルをテストしたところ、Windows 10よりもLinux（Ubuntu 22.04）でのOllama推論のほうが劇的に速かったと報告しています。
簡易ベンチマークでは、Linux側でトークン毎秒（tokens-per-second）がおおむね約2倍、あるいはそれ以上になりました（例：Qwen Code Next q4で18→31 t/s、Qwen 3 30B Q4 A3Bで48→105 t/s）。
著者はこのパフォーマンス差が想定より大きいのではないかと述べ、他にも同様の違いを観測した人がいるか質問しています。
ローカルでLLM推論を動かしている人に向けて、OSレベルのパフォーマンス影響を考慮するための実用的なリマインダーとして結果を共有しています。
投稿は正式な統制実験ではなく、ユーザーが実際に行った簡単な推論テストに基づくため、原因（ドライバ、ビルド、実行時の設定など）は特定されていません。

私の自宅ラボ用のシンプルなPCがあります。64GBのDDR4、RTX 8000 48GB（Turingアーキテクチャ）、そしてcore i9 9900kのCPUです。OSはLinuxのUbuntu 22.04 LTSを使っています。このPCを自宅ラボとして使う前はWindows 10を動かしていました。今週末、古いプロジェクトを確認するために、Windows 10のSSDを再インストールしました。Ollamaを最新バージョンに更新したところ、Linuxで動かしていたときよりもトークン/秒がかなり遅くなりました。Linuxの方が性能が良いのは分かっていますが、2倍も速いとは思いませんでした。いくつかの簡単な推論テストの結果は以下のとおりです：

QWEN Code Next、q4、ctx長：6k

Windows：18 t/s

Linux：31 t/s（+72%）

QWEN 3 30B A3B、Q4、ctx 6k

Windows：48 t/s

Linux：105 t/s（+118%）

他の方でも、このくらい大きな性能差を経験したことはありますか？何か見落としているのでしょうか？

とにかく、もう少し性能を求めている人へのリマインダーとして共有しようと思いました！

submitted by /u/triynizzles1
[link] [comments]