RTX3090でQwen3.6 27B/35Bをローカル実行すると遅い・コードが壊れる——より良い設定と自動モデル切替を探す

Reddit r/LocalLLaMA / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • RTX 3090(24GB VRAM)/Windows 11環境でQwen 3.6の35Bと27Bをローカル実行しているRedditユーザーが、35Bは応答が遅すぎて反復作業に使えず、27Bは速いもののコードが壊れることが多いと報告している。
  • llama-server.exeで量子化やGPUオフロードの設定を変えて実行しているが、フラグ設定、量子化の選び方、文脈(コンテキスト)長などがレイテンシとコード信頼性の問題につながっているのではと考えている。
  • ユーザーは3090で実用的に動く「モデル+量子化」のおすすめ構成を求めており、速度とコーディングの信頼性のバランスを重視している。
  • スループット(t/s)の改善方法についても質問しており、コマンドラインのフラグが不適切ではないか、コンテキストサイズが大きすぎないかを疑っている。
  • さらに、リクエストに応じてモデルを自動で切り替える仕組み、または複数モデルを常駐(ウォーム)させてルーティングする仕組みを、サーバ再起動なしで実現できないかを求めている。

みなさんこんにちは、

自分の環境でQwenモデルをローカル実行する実験をしていました:

GPU: RTX 3090(24GB VRAM)

RAM: 64GB

CPU: Ryzen 5700X

OS: Windows 11

現在実行しているもの

Qwen 3.6 35B(UD Q4_K_M)

llama-server.exe -m "C:\Users\Dino\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-GGUF\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0 

Qwen 3.6 27B(UD Q4_K_XL)

llama-server.exe -m "C:\Users\Dino\.lmstudio\models\unsloth\Qwen3.6-27B-GGUF\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0 

使用用途

  • Hermesエージェント(Raspberry Pi 5上)→ Redditのスクレイピング、求人のスクレイピング、基本的な自動化
  • ローカルでのコーディング(OpenCode / QwenCode)→ 小さなスクリプト、デバッグ、パッチ当て
  • プロンプトによるときどきのインフラセットアップ

いま直面している問題

  • 35Bは遅すぎる
    • 単純なタスクでも応答までにとても時間がかかる。繰り返し(イテレーション)前提の作業には、実用になっていない感じです。
  • 27Bは速いが信頼性がない
    • コードがしばしば壊れる
    • 単純なタスクでも、ときどき20〜30分かかる

求めていること

  1. より良いモデル+量子化(quant)のおすすめ
    • 実際に3090でうまく動くもの
    • 速度とコーディングの信頼性の良いバランス
  2. スループット(t/s)を改善する方法
    • 自分のフラグはまずいですか?
    • コンテキストサイズが大きすぎますか?
    • 見落としている明らかな点はありますか?
  3. 自動モデル読み込み/ルーティング(今は自分でやる必要があります):
    • サーバーを停止する
    • 新しいコマンドを貼り付ける
    • モデルを再読み込みする
  • 以下のようなことは可能でしょうか?
    • リクエストに応じてモデルを自動切り替えする
    • あるいは複数のモデルを温めた状態で保持して、それらの間でルーティングする

あなたの構成(スタック)は何ですか?

事前にありがとうございます。どんな提案や助けでも本当にありがたいです。

submitted by /u/Clean_Initial_9618
[link] [comments]