広告

親切なリマインダー:推論はWindowsよりLinuxのほうがずっと速い

Reddit r/LocalLLaMA / 2026/3/29

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • Redditのユーザーが、同程度の量子化とコンテキスト長で2つのQwenモデルをテストしたところ、Windows 10よりもLinux(Ubuntu 22.04)でのOllama推論のほうが劇的に速かったと報告しています。
  • 簡易ベンチマークでは、Linux側でトークン毎秒(tokens-per-second)がおおむね約2倍、あるいはそれ以上になりました(例:Qwen Code Next q4で18→31 t/s、Qwen 3 30B Q4 A3Bで48→105 t/s)。
  • 著者はこのパフォーマンス差が想定より大きいのではないかと述べ、他にも同様の違いを観測した人がいるか質問しています。
  • ローカルでLLM推論を動かしている人に向けて、OSレベルのパフォーマンス影響を考慮するための実用的なリマインダーとして結果を共有しています。
  • 投稿は正式な統制実験ではなく、ユーザーが実際に行った簡単な推論テストに基づくため、原因(ドライバ、ビルド、実行時の設定など)は特定されていません。

私の自宅ラボ用のシンプルなPCがあります。64GBのDDR4、RTX 8000 48GB(Turingアーキテクチャ)、そしてcore i9 9900kのCPUです。OSはLinuxのUbuntu 22.04 LTSを使っています。このPCを自宅ラボとして使う前はWindows 10を動かしていました。今週末、古いプロジェクトを確認するために、Windows 10のSSDを再インストールしました。Ollamaを最新バージョンに更新したところ、Linuxで動かしていたときよりもトークン/秒がかなり遅くなりました。Linuxの方が性能が良いのは分かっていますが、2倍も速いとは思いませんでした。いくつかの簡単な推論テストの結果は以下のとおりです:

QWEN Code Next、q4、ctx長:6k

Windows:18 t/s

Linux:31 t/s(+72%)

QWEN 3 30B A3B、Q4、ctx 6k

Windows:48 t/s

Linux:105 t/s(+118%)

他の方でも、このくらい大きな性能差を経験したことはありますか?何か見落としているのでしょうか?

とにかく、もう少し性能を求めている人へのリマインダーとして共有しようと思いました!

submitted by /u/triynizzles1
[link] [comments]

広告