UnslothのQwen3.6-35B-A3B GGUFはかなり遅い?CPU環境での体感比較(llama.cpp)
Reddit r/LocalLLaMA / 2026/4/18
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- Redditのユーザーが、Debian 13でCPUのみの環境に最新のllama.cppを使う場合、Unsloth製のGGUF(Qwen3.6-35B)が他の作成者の同等モデルよりも体感で遅く、トークン/秒が約30%低いと報告しています。
- 初期応答だけでなく、フォローアップ応答のレイテンシもUnsloth GGUFの方が長いようで、例えば報告された比較では約25〜29秒(Unsloth)に対して約14〜20秒(他)とされています。
- 比較にはIQ4_NLの量子化やQwen3.6-35B系の複数バリエーションが含まれており、Unslothのビルドでは約5.9〜6.1 t/s、一方の代替では約8.7〜8.8 t/sとトークン速度の差が示されています。
- ユーザーは、GGUF生成やランタイム設定などに起因する最適化の余地があるのではないかと示唆し、トラブルシュートの参考としてllama.cppの起動ログの一部を共有しています。
- 主張は設定やモデルビルドの影響を受けうる前提で述べられており、他者にも再現・検証して原因(GGUF生成/実行条件)を探してほしいという意図です。
この記事の続きは原文サイトでお読みいただけます。
原文を読む →