Qwen3.5-27B-IQ3_M, 5070ti 16GB, 32k context: ~50t/s

Reddit r/LocalLLaMA / 2026/3/12

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この投稿は、Qwen3.5-27Bが5070ti 16GBのカードでローカル実行され、32kコンテキストで予想外に高いプロンプトスループットを達成したことを報告しています。
  • 結果はwillbnu/Qwen-3.5-16G-Vram-Localリポジトリを基にしていますが、再現には特定のロック済みプロファイルと設定が必要です。
  • ベンチマークの数値は、設定を跨いでプロンプトスループットがおよそ462.7–478.3 t/s、生成がおよそ48 t/sとなっており、プロンプト速度の高さを強調しています。
  • 最終設定は32,768のコンテキスト、99 GPUレイヤー、iq4_nlキャッシュ、バッチ1024/512、6スレッド、ctx-checkpoints 0、フラッシュアテンションON、ポート8004、再現方法を示しています。

この投稿をコミュニティに共有したい。動かせたことに驚いたし、現状の性能がこれほど高いことにも驚いています。IQ3は通常はどのモデルでも非常に悪いことが多いのですが... しかしQwen3.5においては27Bが非常に有能なため、その限りではないと感じました。

出発点はこれでした: https://github.com/willbnu/Qwen-3.5-16G-Vram-Local ただし以下の設定を適用するまで、見られた結果を完全には再現できませんでした。

ベンチマーク比較 - ベースライン(ctx-checkpoints=8, Q3_K_S): プロンプト ≈ 185.8 t/s、生成 ≈ 48.3 t/s — qwen-guide/benchmark_port8004_20260311_233216.json

  • ctx-checkpoints=0(同じモデル):プロンプト ≈ 478.3 t/s、生成 ≈ 48.7 t/s — qwen-guide/benchmark_port8004_20260312_000246.json

  • Hauhau IQ3_M ロック済みプロファイル(ポート8004):プロンプト ≈ 462.7 t/s、生成 ≈ 48.4 t/s — qwen-guide/benchmark_port8004_20260312_003521.json

最終的なロック済みプロファイルのパラメータ - モデル: Qwen3.5-27B-Uncensored-HauhauCS-Aggressive-IQ3_M.gguf - コンテキスト: 32,768 - GPUレイヤー: 99 (全65レイヤーがGPU上) - KVキャッシュタイプ: K=iq4_nl、V=iq4_nl - バッチ / UBatch: 1024 / 512 - スレッド: 6 - ctx-checkpoints: 0 - 推論予算: 0 - 並列: 1 - フラッシュアテンション: on - ランチャースクリプト: scripts/start_quality_locked.sh - ポート: 8004

投稿者: /u/ailee43
[リンク] [コメント]