もし誰かが興味を持っているなら、Intel GPUでの比較として、LLama.cppの新しいOpenVinoバックエンドを試してみることにしました。第一印象では、これまでの最良ケースであったSYCLをことごとく上回っていますが、LLM-Scaler(IntelのVLLMフォーク)には後れを取っています。おそらく理由は、GPTQ/Int4に対するハードウェア最適化の差でしょう。面白いことに、SYCLではtg512が最速でしたが、実運用では、このカードにおいてはプロンプト処理が常に指標になっているように見えます。
いつものように、Intelはモデル選定が…よくありません。有効なOpenVinoリストの中から、きちんと動くだけでなく、LLM Scaler用にも「十分近い」対応モデルがあるものを見つけるのにしばらく時間がかかりました。
編集: 本当にRedditですか?タイトルは編集できないんですか?こんなに長いことこの手のものを使っていなかったので、なんでこんなことになるのか思い出してしまいました。
## Llama.cpp OpenVino llama-benchy http://localhost:8000/v1 bartowski/DeepSeek-R1-Distill-Llama-8B-GGUF:Q4_K_M | model | test | t/s | peak t/s | ttfr (ms) | est_ppt (ms) | e2e_ttft (ms) | |:---------------------------------------------------|-------:|-----------------:|-------------:|---------------:|---------------:|----------------:| | bartowski/DeepSeek-R1-Distill-Llama-8B-GGUF:Q4_K_M | pp2048 | 3845.61 ± 524.73 | | 659.99 ± 56.95 | 489.07 ± 56.95 | 739.42 ± 56.84 | | bartowski/DeepSeek-R1-Distill-Llama-8B-GGUF:Q4_K_M | tg512 | 40.89 ± 0.55 | 44.33 ± 1.25 | | | | ## Llama.cpp SYCL llama-benchy http://localhost:8000/v1 bartowski/DeepSeek-R1-Distill-Llama-8B-GGUF:Q4_K_M | model | test | t/s | peak t/s | ttfr (ms) | est_ppt (ms) | e2e_ttft (ms) | |:---------------------------------------------------|-------:|---------------:|----------------:|---------------:|----------------:|----------------:| | bartowski/DeepSeek-R1-Distill-Llama-8B-GGUF:Q4_K_M | pp2048 | 844.64 ± 19.25 | | 2199.90 ± 23.63 | 2178.96 ± 23.63 | 2229.67 ± 24.84 | | bartowski/DeepSeek-R1-Distill-Llama-8B-GGUF:Q4_K_M | tg512 | 73.87 ± 1.17 | 78.00 ± 2.16 | | | | ## LLM-Scaler llama-benchy http://localhost:8000/v1 jakiAJK/DeepSeek-R1-Distill-Llama-8B_GPTQ-int4 | model | test | t/s | peak t/s | ttfr (ms) | est_ppt (ms) | e2e_ttft (ms) | |:--------|-------:|-----------------:|-------------:|---------------:|---------------:|----------------:| | jakiAJK/DeepSeek-R1-Distill-Llama-8B_GPTQ-int4 | pp2048 | 7875.52 ± 642.20 | | 268.09 ± 20.50 | 240.11 ± 20.50 | 268.34 ± 20.45 | | jakiAJK/DeepSeek-R1-Distill-Llama-8B_GPTQ-int4 | tg512 | 52.75 ± 0.10 | 54.00 ± 0.00 | | | |## Llama.cpp OpenVino [link] [comments]




