Qwen3.5-27B-IQ3_M, 5070ti 16GB, 32k context: ~50t/s

Reddit r/LocalLLaMA / 2026/3/12

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

この投稿は、Qwen3.5-27Bが5070ti 16GBのカードでローカル実行され、32kコンテキストで予想外に高いプロンプトスループットを達成したことを報告しています。
結果はwillbnu/Qwen-3.5-16G-Vram-Localリポジトリを基にしていますが、再現には特定のロック済みプロファイルと設定が必要です。
ベンチマークの数値は、設定を跨いでプロンプトスループットがおよそ462.7–478.3 t/s、生成がおよそ48 t/sとなっており、プロンプト速度の高さを強調しています。
最終設定は32,768のコンテキスト、99 GPUレイヤー、iq4_nlキャッシュ、バッチ1024/512、6スレッド、ctx-checkpoints 0、フラッシュアテンションON、ポート8004、再現方法を示しています。

この投稿をコミュニティに共有したい。動かせたことに驚いたし、現状の性能がこれほど高いことにも驚いています。IQ3は通常はどのモデルでも非常に悪いことが多いのですが... しかしQwen3.5においては27Bが非常に有能なため、その限りではないと感じました。

出発点はこれでした: https://github.com/willbnu/Qwen-3.5-16G-Vram-Local ただし以下の設定を適用するまで、見られた結果を完全には再現できませんでした。

ベンチマーク比較 - ベースライン（ctx-checkpoints=8, Q3_K_S）: プロンプト ≈ 185.8 t/s、生成 ≈ 48.3 t/s — qwen-guide/benchmark_port8004_20260311_233216.json

ctx-checkpoints=0（同じモデル）：プロンプト ≈ 478.3 t/s、生成 ≈ 48.7 t/s — qwen-guide/benchmark_port8004_20260312_000246.json
Hauhau IQ3_M ロック済みプロファイル（ポート8004）：プロンプト ≈ 462.7 t/s、生成 ≈ 48.4 t/s — qwen-guide/benchmark_port8004_20260312_003521.json

最終的なロック済みプロファイルのパラメータ - モデル: Qwen3.5-27B-Uncensored-HauhauCS-Aggressive-IQ3_M.gguf - コンテキスト: 32,768 - GPUレイヤー: 99 (全65レイヤーがGPU上) - KVキャッシュタイプ: K=iq4_nl、V=iq4_nl - バッチ / UBatch: 1024 / 512 - スレッド: 6 - ctx-checkpoints: 0 - 推論予算: 0 - 並列: 1 - フラッシュアテンション: on - ランチャースクリプト: scripts/start_quality_locked.sh - ポート: 8004

投稿者: /u/ailee43
[リンク] [コメント]

マイクロソフト、Claude CodeやGitHub Copilotに「このアプリをデプロイせよ」と指示すればAIが最適なインフラ構成やサービスでデプロイしてくれる「Azure Skills Plugin」公開

Publickey

[野球の予測モデル] 次の1球で何が起こるのかを予測したい

Qiita

なんと397BのAIモデルをiPhoneで動かすことに成功

GIGAZINE

Microsoft Learn参照させるAgent Skillsあるじゃん！

Zenn

Claude Code がアホになるのはあなたのせいじゃない ― オートコンパクティングの罠と完全回避術

Zenn

Qwen3.5-27B-IQ3_M, 5070ti 16GB, 32k context: ~50t/s

要点

関連記事

マイクロソフト、Claude CodeやGitHub Copilotに「このアプリをデプロイせよ」と指示すればAIが最適なインフラ構成やサービスでデプロイしてくれる「Azure Skills Plugin」公開

[野球の予測モデル] 次の1球で何が起こるのかを予測したい

なんと397BのAIモデルをiPhoneで動かすことに成功

Microsoft Learn参照させるAgent Skillsあるじゃん！

Claude Code がアホになるのはあなたのせいじゃない ― オートコンパクティングの罠と完全回避術

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer