ggml-cpu: pl752による最適化x86および汎用CPU向けq1_0 DOT(フォローアップ)— ggml-org/llama.cpp Pull Request #21636

Reddit r/LocalLLaMA / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • llama.cppのPull Request #21636によって、x86および汎用CPU向けのq1_0 DOT形式に対するggml-cpu最適化が導入され、リリースb8858から利用可能になりました。
  • 貢献者のテストでは、古いノートPCで推論速度が大きく向上し(約0.3 t/sから約1.7 t/sへ)、一方でAVX/AVX512に対応していない環境では想定ほどの伸びが出にくい可能性があります。
  • この改善はCPU性能を主な対象としていますが、Metal・Vulkan・CUDA側でも1ビット版に対応した最適化があることが言及されています。
  • 同様のスループット向上が期待できる可能性があるため、利用者はMetal/Vulkan/CUDAなど対応するプラットフォーム側のバージョンも確認するよう促されています。
  • 全体として、このアップデートはローカル推論の速度をより速めることを目的としたフォローアップ(継続的な改良)として位置づけられています。
ggml-cpu: Optimized x86 and generic cpu q1_0 dot (follow up) by pl752 · Pull Request #21636 · ggml-org/llama.cpp

b8858 以降で利用可能です。これは最適化済みのCPU版なので、現在は t/s がより速くなっています。

(私の古い弱いノートPC(16GB DDR3 RAM)でちょっと試しただけですが、Before:0.3 t/s & After:1.7 t/s。もちろん、私のノートPCには AVX または AVX512 の対応がないため、期待したほどの向上は得られませんでした。今週、新しいノートPCでも確認します。)

参考までに、Metal、Vulkan、CUDA のバージョンでもこれに対応しています(1-bit バージョン……ボンサイ)。まだ確認していなければ、それらも見てください。

submitted by /u/pmttyji
[link] [comments]