16GB GPU上でローカル実行するQwen 3.5と、クラウド上のKimi K2.5

Reddit r/LocalLLaMA / 2026/3/25

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • この投稿では、16GBのAMD RX 9070 XT上で(LM Studio + Vulkan、Bazzite Deck KDE経由)Qwen 3.5をローカル実行する場合と、クラウドでKimi K2.5を使用する場合を比較している。
  • 共通の「洗車場までの距離」プロンプトについて、著者はQwen 3.5が正しく質問を処理し、自身の環境では約120 tokens/秒の速度が出た一方、Kimiは同じ問い合わせで苦戦したと報告している。
  • 著者は、ローカルで動かすQwenは(例えば約40秒の)エンドツーエンドの応答時間が想定より長くなることがあると述べており、同等またはより高い生成速度でも、推論が長くなりトークン使用量が増えることが要因だとしている。
  • また、信頼性に関するトレードオフも観察している。Kimiはときどき正しく答えるが、試行のたびにランダムに失敗することがある。一方、ローカルのQwenはより一貫して正しいとされるが、応答レイテンシは変動するという。
Local Qwen 3.5 on 16GB GPU vs Kimi K2.5 on the cloud

https://preview.redd.it/uxtyp30wq3rg1.png?width=3839&format=png&auto=webp&s=8e0ed66bc9272b1d729443569504b8fc8121ea55

Kimi K2.5 は素晴らしいモデルで、重みを公開してくれたのはうれしいのですが、私は自分のローカル環境で Qwen 3.5 を試してみることにしました。16GB の AMD RX 9070 XT を使い、64k コンテキストの unsloth q2_k_xl です。すると、Kimi が苦戦していた「カークウォッシュ(洗車)」の質問を、120 t/s という快調な速度で見事に当ててきました。Linux ディストリは Bazzite Deck KDE です。LM Studio は Vulkan エンジンを設定して、ローカルで動かしています。

以下が、コピペ用のプロンプトです:「私は車を洗う必要があります。洗車場は家から 50 メートルしかありません。歩いて行くべきですか、それとも車で行くべきですか?」

編集:興味深いことに、ローカルの Qwen は、スクリーンショットでは 8 秒ですが、長い推論(同じ t/s)のために 40 秒くらいかかることがよくあります。Qwen は結論に至るまでに Kimi よりもはるかに多くのトークンを使うため、トークン生成速度はかなり高いにもかかわらず、速度では Kimi とローカル Qwen の間でよく引き分けになります。さらに、Kimi は多くの試行で正しく答えるものの、ランダムに間違えることがあります。ローカル Qwen はかなり一貫して正しいですが、応答時間はばらつきます。

submitted by /u/pneuny
[link] [comments]