この投稿をコミュニティに共有したい。動かせたことに驚いたし、現状の性能がこれほど高いことにも驚いています。IQ3は通常はどのモデルでも非常に悪いことが多いのですが... しかしQwen3.5においては27Bが非常に有能なため、その限りではないと感じました。
出発点はこれでした: https://github.com/willbnu/Qwen-3.5-16G-Vram-Local ただし以下の設定を適用するまで、見られた結果を完全には再現できませんでした。
ベンチマーク比較 - ベースライン(ctx-checkpoints=8, Q3_K_S): プロンプト ≈ 185.8 t/s、生成 ≈ 48.3 t/s — qwen-guide/benchmark_port8004_20260311_233216.json
ctx-checkpoints=0(同じモデル):プロンプト ≈ 478.3 t/s、生成 ≈ 48.7 t/s — qwen-guide/benchmark_port8004_20260312_000246.json
Hauhau IQ3_M ロック済みプロファイル(ポート8004):プロンプト ≈ 462.7 t/s、生成 ≈ 48.4 t/s — qwen-guide/benchmark_port8004_20260312_003521.json
最終的なロック済みプロファイルのパラメータ - モデル: Qwen3.5-27B-Uncensored-HauhauCS-Aggressive-IQ3_M.gguf - コンテキスト: 32,768 - GPUレイヤー: 99 (全65レイヤーがGPU上) - KVキャッシュタイプ: K=iq4_nl、V=iq4_nl - バッチ / UBatch: 1024 / 512 - スレッド: 6 - ctx-checkpoints: 0 - 推論予算: 0 - 並列: 1 - フラッシュアテンション: on - ランチャースクリプト: scripts/start_quality_locked.sh - ポート: 8004
[リンク] [コメント]
