みなさんこんにちは、
自分の環境でQwenモデルをローカル実行する実験をしていました:
GPU: RTX 3090(24GB VRAM)
RAM: 64GB
CPU: Ryzen 5700X
OS: Windows 11
現在実行しているもの
Qwen 3.6 35B(UD Q4_K_M)
llama-server.exe -m "C:\Users\Dino\.lmstudio\models\unsloth\Qwen3.6-35B-A3B-GGUF\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0 Qwen 3.6 27B(UD Q4_K_XL)
llama-server.exe -m "C:\Users\Dino\.lmstudio\models\unsloth\Qwen3.6-27B-GGUF\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0 使用用途
- Hermesエージェント(Raspberry Pi 5上)→ Redditのスクレイピング、求人のスクレイピング、基本的な自動化
- ローカルでのコーディング(OpenCode / QwenCode)→ 小さなスクリプト、デバッグ、パッチ当て
- プロンプトによるときどきのインフラセットアップ
いま直面している問題
- 35Bは遅すぎる
- 単純なタスクでも応答までにとても時間がかかる。繰り返し(イテレーション)前提の作業には、実用になっていない感じです。
- 27Bは速いが信頼性がない
- コードがしばしば壊れる
- 単純なタスクでも、ときどき20〜30分かかる
求めていること
- より良いモデル+量子化(quant)のおすすめ
- 実際に3090でうまく動くもの
- 速度とコーディングの信頼性の良いバランス
- スループット(t/s)を改善する方法
- 自分のフラグはまずいですか?
- コンテキストサイズが大きすぎますか?
- 見落としている明らかな点はありますか?
- 自動モデル読み込み/ルーティング(今は自分でやる必要があります):
- サーバーを停止する
- 新しいコマンドを貼り付ける
- モデルを再読み込みする
- 以下のようなことは可能でしょうか?
- リクエストに応じてモデルを自動切り替えする
- あるいは複数のモデルを温めた状態で保持して、それらの間でルーティングする
あなたの構成(スタック)は何ですか?
事前にありがとうございます。どんな提案や助けでも本当にありがたいです。
[link] [comments]




