AI Navigate

アップデートアップデート最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

RTX3090でQwen3.6 27B/35Bをローカル実行すると遅い・コードが壊れる——より良い設定と自動モデル切替を探す

Reddit r/LocalLLaMA / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

原文を読む →

共有:

要点

RTX 3090（24GB VRAM）/Windows 11環境でQwen 3.6の35Bと27Bをローカル実行しているRedditユーザーが、35Bは応答が遅すぎて反復作業に使えず、27Bは速いもののコードが壊れることが多いと報告している。
llama-server.exeで量子化やGPUオフロードの設定を変えて実行しているが、フラグ設定、量子化の選び方、文脈（コンテキスト）長などがレイテンシとコード信頼性の問題につながっているのではと考えている。
ユーザーは3090で実用的に動く「モデル＋量子化」のおすすめ構成を求めており、速度とコーディングの信頼性のバランスを重視している。
スループット（t/s）の改善方法についても質問しており、コマンドラインのフラグが不適切ではないか、コンテキストサイズが大きすぎないかを疑っている。
さらに、リクエストに応じてモデルを自動で切り替える仕組み、または複数モデルを常駐（ウォーム）させてルーティングする仕組みを、サーバ再起動なしで実現できないかを求めている。

みなさんこんにちは、

自分の環境でQwenモデルをローカル実行する実験をしていました：

GPU: RTX 3090（24GB VRAM）

RAM: 64GB

CPU: Ryzen 5700X

OS: Windows 11

現在実行しているもの

Qwen 3.6 35B（UD Q4_K_M）

llama-server.exe -m "C:\Users\Dino\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-GGUF\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

Qwen 3.6 27B（UD Q4_K_XL）

llama-server.exe -m "C:\Users\Dino\.lmstudio\models\unsloth\Qwen3.6-27B-GGUF\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

使用用途

Hermesエージェント（Raspberry Pi 5上）→ Redditのスクレイピング、求人のスクレイピング、基本的な自動化
ローカルでのコーディング（OpenCode / QwenCode）→ 小さなスクリプト、デバッグ、パッチ当て
プロンプトによるときどきのインフラセットアップ

いま直面している問題

35Bは遅すぎる
- 単純なタスクでも応答までにとても時間がかかる。繰り返し（イテレーション）前提の作業には、実用になっていない感じです。
27Bは速いが信頼性がない
- コードがしばしば壊れる
- 単純なタスクでも、ときどき20〜30分かかる

求めていること

より良いモデル＋量子化（quant）のおすすめ
- 実際に3090でうまく動くもの
- 速度とコーディングの信頼性の良いバランス
スループット（t/s）を改善する方法
- 自分のフラグはまずいですか？
- コンテキストサイズが大きすぎますか？
- 見落としている明らかな点はありますか？
自動モデル読み込み／ルーティング（今は自分でやる必要があります）：
- サーバーを停止する
- 新しいコマンドを貼り付ける
- モデルを再読み込みする

以下のようなことは可能でしょうか？
- リクエストに応じてモデルを自動切り替えする
- あるいは複数のモデルを温めた状態で保持して、それらの間でルーティングする

あなたの構成（スタック）は何ですか？

事前にありがとうございます。どんな提案や助けでも本当にありがたいです。

submitted by /u/Clean_Initial_9618
[link] [comments]

関連記事

Black Hat USA

Black Hat USA

AI Business

キオクシア、27年にAI向け100倍速SSD 「NVIDIAから要望」

キオクシア、27年にAI向け100倍速SSD 「NVIDIAから要望」

日経XTECH

無料で「ComfyUI」「Open WebUI」などからローカルAIモデルをGPUで動かすDocker環境を一発で構築し動かし続ける「Puget Systems Docker App Packs」

無料で「ComfyUI」「Open WebUI」などからローカルAIモデルをGPUで動かすDocker環境を一発で構築し動かし続ける「Puget Systems Docker App Packs」

GIGAZINE

アンソロピック、ブラックストーンおよびゴールドマン・サックスと提携してAIサービス会社を立ち上げ

アンソロピック、ブラックストーンおよびゴールドマン・サックスと提携してAIサービス会社を立ち上げ

Dev.to

2026年にAIが「見えない毎日の相棒」になった10の方法

2026年にAIが「見えない毎日の相棒」になった10の方法

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告