Intel B70：Llama.cpp OpenVINO vs SYCL、そして LLM-Scaler（Int4最適化）との比較

Reddit r/LocalLLaMA / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

この投稿では、Intel GPU上で llama.cpp の新しい OpenVINO バックエンド、既存の SYCL バックエンド、そして LLM-Scaler（Intel の VLLM フォーク）をベンチマーク比較しています。
著者の初期テストでは OpenVINO バックエンドが SYCL の従来の最良ケースを上回って見える一方、LLM-Scaler は依然として高い性能を示し、その主因は GPTQ/Int4 向けのハード最適化による可能性があると述べています。
SYCL では tg512 が最速でしたが、実運用でのボトルネックはピークトークン性能よりも、そのカードにおけるプロンプト処理（TTFT寄り）の遅延だと著者は指摘しています。
また著者は、Intel のモデル互換性・選定の難しさも批判しており、OpenVINO の検証済みリスト内で正しく動き、かつ LLM-Scaler と比較できる「十分に近い」モデルを見つけるのに時間がかかったとしています。
この記事は正式なリリースや公式発表というより、ユーザーが行った非公式のベンチ報告として位置づけられています。

もし誰かが興味を持っているなら、Intel GPUでの比較として、LLama.cppの新しいOpenVinoバックエンドを試してみることにしました。第一印象では、これまでの最良ケースであったSYCLをことごとく上回っていますが、LLM-Scaler（IntelのVLLMフォーク）には後れを取っています。おそらく理由は、GPTQ/Int4に対するハードウェア最適化の差でしょう。面白いことに、SYCLではtg512が最速でしたが、実運用では、このカードにおいてはプロンプト処理が常に指標になっているように見えます。

いつものように、Intelはモデル選定が…よくありません。有効なOpenVinoリストの中から、きちんと動くだけでなく、LLM Scaler用にも「十分近い」対応モデルがあるものを見つけるのにしばらく時間がかかりました。

編集: 本当にRedditですか？タイトルは編集できないんですか？こんなに長いことこの手のものを使っていなかったので、なんでこんなことになるのか思い出してしまいました。

## Llama.cpp OpenVino llama-benchy http://localhost:8000/v1 bartowski/DeepSeek-R1-Distill-Llama-8B-GGUF:Q4_K_M | model | test | t/s | peak t/s | ttfr (ms) | est_ppt (ms) | e2e_ttft (ms) | |:---------------------------------------------------|-------:|-----------------:|-------------:|---------------:|---------------:|----------------:| | bartowski/DeepSeek-R1-Distill-Llama-8B-GGUF:Q4_K_M | pp2048 | 3845.61 ± 524.73 | | 659.99 ± 56.95 | 489.07 ± 56.95 | 739.42 ± 56.84 | | bartowski/DeepSeek-R1-Distill-Llama-8B-GGUF:Q4_K_M | tg512 | 40.89 ± 0.55 | 44.33 ± 1.25 | | | | ## Llama.cpp SYCL llama-benchy http://localhost:8000/v1 bartowski/DeepSeek-R1-Distill-Llama-8B-GGUF:Q4_K_M | model | test | t/s | peak t/s | ttfr (ms) | est_ppt (ms) | e2e_ttft (ms) | |:---------------------------------------------------|-------:|---------------:|----------------:|---------------:|----------------:|----------------:| | bartowski/DeepSeek-R1-Distill-Llama-8B-GGUF:Q4_K_M | pp2048 | 844.64 ± 19.25 | | 2199.90 ± 23.63 | 2178.96 ± 23.63 | 2229.67 ± 24.84 | | bartowski/DeepSeek-R1-Distill-Llama-8B-GGUF:Q4_K_M | tg512 | 73.87 ± 1.17 | 78.00 ± 2.16 | | | | ## LLM-Scaler llama-benchy http://localhost:8000/v1 jakiAJK/DeepSeek-R1-Distill-Llama-8B_GPTQ-int4 | model | test | t/s | peak t/s | ttfr (ms) | est_ppt (ms) | e2e_ttft (ms) | |:--------|-------:|-----------------:|-------------:|---------------:|---------------:|----------------:| | jakiAJK/DeepSeek-R1-Distill-Llama-8B_GPTQ-int4 | pp2048 | 7875.52 ± 642.20 | | 268.09 ± 20.50 | 240.11 ± 20.50 | 268.34 ± 20.45 | | jakiAJK/DeepSeek-R1-Distill-Llama-8B_GPTQ-int4 | tg512 | 52.75 ± 0.10 | 54.00 ± 0.00 | | | |## Llama.cpp OpenVino

submitted by /u/Fmstrat
[link] [comments]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/27Dailyインサイトを見る →

Black Hat USA

AI Business

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

日経XTECH

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

日経XTECH

プログラムを自律的に考えて提案、AIエディタが備える機能を把握する

日経XTECH

Intel B70：Llama.cpp OpenVINO vs SYCL、そして LLM-Scaler（Int4最適化）との比較

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

プログラムを自律的に考えて提案、AIエディタが備える機能を把握する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat USA

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

プログラムを自律的に考えて提案、AIエディタが備える機能を把握する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ