16GB GPU上でローカル実行するQwen 3.5と、クラウド上のKimi K2.5

Reddit r/LocalLLaMA / 2026/3/25

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

この投稿では、16GBのAMD RX 9070 XT上で（LM Studio + Vulkan、Bazzite Deck KDE経由）Qwen 3.5をローカル実行する場合と、クラウドでKimi K2.5を使用する場合を比較している。
共通の「洗車場までの距離」プロンプトについて、著者はQwen 3.5が正しく質問を処理し、自身の環境では約120 tokens/秒の速度が出た一方、Kimiは同じ問い合わせで苦戦したと報告している。
著者は、ローカルで動かすQwenは（例えば約40秒の）エンドツーエンドの応答時間が想定より長くなることがあると述べており、同等またはより高い生成速度でも、推論が長くなりトークン使用量が増えることが要因だとしている。
また、信頼性に関するトレードオフも観察している。Kimiはときどき正しく答えるが、試行のたびにランダムに失敗することがある。一方、ローカルのQwenはより一貫して正しいとされるが、応答レイテンシは変動するという。

Local Qwen 3.5 on 16GB GPU vs Kimi K2.5 on the cloud

https://preview.redd.it/uxtyp30wq3rg1.png?width=3839&format=png&auto=webp&s=8e0ed66bc9272b1d729443569504b8fc8121ea55

Kimi K2.5 は素晴らしいモデルで、重みを公開してくれたのはうれしいのですが、私は自分のローカル環境で Qwen 3.5 を試してみることにしました。16GB の AMD RX 9070 XT を使い、64k コンテキストの unsloth q2_k_xl です。すると、Kimi が苦戦していた「カークウォッシュ（洗車）」の質問を、120 t/s という快調な速度で見事に当ててきました。Linux ディストリは Bazzite Deck KDE です。LM Studio は Vulkan エンジンを設定して、ローカルで動かしています。

以下が、コピペ用のプロンプトです：「私は車を洗う必要があります。洗車場は家から 50 メートルしかありません。歩いて行くべきですか、それとも車で行くべきですか？」

編集：興味深いことに、ローカルの Qwen は、スクリーンショットでは 8 秒ですが、長い推論（同じ t/s）のために 40 秒くらいかかることがよくあります。Qwen は結論に至るまでに Kimi よりもはるかに多くのトークンを使うため、トークン生成速度はかなり高いにもかかわらず、速度では Kimi とローカル Qwen の間でよく引き分けになります。さらに、Kimi は多くの試行で正しく答えるものの、ランダムに間違えることがあります。ローカル Qwen はかなり一貫して正しいですが、応答時間はばらつきます。

submitted by /u/pneuny
[link] [comments]

1Passwordが人間とAIエージェントのアイデンティティを統一管理する「Unified Access 」発表

Publickey

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

Laravel、Twilio、OpenAIを使ってWhatsApp AIアシスタントを構築する

Dev.to

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

16GB GPU上でローカル実行するQwen 3.5と、クラウド上のKimi K2.5

要点

関連記事

1Passwordが人間とAIエージェントのアイデンティティを統一管理する「Unified Access 」発表

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

Laravel、Twilio、OpenAIを使ってWhatsApp AIアシスタントを構築する

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer