ik_llama.cppのフォークがQwen 3.5 27Bでプロンプト処理を約26倍高速化 — 実測値

Reddit r/LocalLLaMA / 2026/3/22

📰 ニュースDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

ik_llama.cppのフォークはQwen 3.5 27Bで劇的な速度向上を実現し、プロンプト評価は約1,122トークン/秒（メインライン llama.cppの約43トークン/秒と比較して約26倍）、生成は約26トークン/秒、従来は約7.5トークン/秒で約3.5倍速です。
この高速化は、CUDA上で全計算を実行する融合型ゲート付きデルタネットワーク（Gated Delta Network）カーネルによるもので、グラフ分割を34から2に削減し、CPUのボトルネックをほぼ解消します。
既存のllama-serverのドロップイン置換で、同じOpenAI互換APIを備えています。ThireusはW-2295システム向けにCUDA 12.8とAVX512_VNNIをサポートする事前ビルドWindowsバイナリを提供します。
既知の注意点: Qwen 3.5のアーキテクチャは依然として各ターンでプロンプトの全再処理を行います。フォークはそれをある程度許容できるようにしますが、この挙動を完全には排除しません。

私はエージェント的なコーディング作業のため、Blackwell RTX PRO 4000（24GB）で Qwen 3.5 27B Q4_K_M を動かしてきましたが、メインライン llama.cpp で壁にぶつかりました。今日は ik_llama.cpp フォークに切り替えたところ、差は圧倒的です。役に立つかもしれないので、実数を公開します。

ハードウェア Lenovo ThinkStation P520、Xeon W-2295 18コア、128GB DDR4 ECC NVIDIA RTX PRO 4000 Blackwell 24GB GDDR7 コンテキスト: 131,072 トークン、KV キャッシュ q8_0/q4_0

ベンチマーク結果

指標メインライン b8457 ik_llama.cpp b4370 プロンプト評価 ~43 トークン/秒 1,122 トークン/秒（26倍）生成 ~7.5 トークン/秒 26 トークン/秒（3.5倍）グラフ分割 34 2 推論中の CPU すべてのスレッドがピークアイドル GPU プロンプト処理部分的 100% GPU

違いの理由

Qwen 3.5 はゲート付きデルタネット（GDN）と Mamba風SSM アーキテクチャを標準のアテンションと組み合わせたハイブリッドな構造を採用しています。メインライン llama.cpp はこれを 34 のグラフノードに分割しており、CPU の関与が大きかった。ik_llama.cpp は全計算を CUDA 上で処理する結合 GDN カーネルを実装しており、グラフ分割を 34 から 2 に削減しています。

ik_llama.cpp を起動すると次のように表示されます:

結合済みゲーテッド・デルタネット（自己回帰）を有効化結合済みゲーテッド・デルタネット（チャンク化）を有効化グラフ分割 = 2

これが差の鍵です。モデルのウェイトは変わっていません。サーバーが変わりました。

完全な再処理バグ

Qwen 3.5 の再発現アーキテクチャは、プロンプトが変わるたびに（llama.cpp の issue #20225 で追跡）各ターンで完全なプロンプト再処理を強制します。1,122 tok/秒ではこれを許容できます — 以前は数分かかっていた処理が今は数秒に短縮されます。ただし、まだ各ターンで発生します。留意してください。

入手先

AVX512 VNNI を搭載した Windows 用 CUDA 12.8 のプリビルトバイナリは Thireus フォークから入手可能です:

https://github.com/Thireus/ik_llama.cpp/releases

既存の llama-server フォルダのドロップイン置換です。同じコマンドライン引数、ポート 1234 での同じ OpenAI 互換 API。

W-2295（AVX512 VNNI）の場合: ik_llama-main-b4370-4d7223c-bin-win-cuda-12.8-x64-avx512_vnni.zip

結論

メインライン llama.cpp で Qwen 3.5 を動かしていて遅い理由を知りたいなら、これが理由です。ik_llama.cpp の結合 GDN カーネルはまだメインラインには入りません。フォークを試してみてください。

セットアップやベンチマークの方法論に関する質問には喜んでお答えします。

投稿者 /u/New-Inspection7034
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/22Dailyインサイトを見る →

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

日経XTECH

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

日経XTECH

Gmailで返信を自動作成、「Google AI Plus」で驚異の時短術

日経XTECH

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

ムーンウェル・オラクルのエクスプロイト：AI支援の「バイブ・コーディング」でcbETHが1.12ドルのトークンになり、178万ドルの損失を招いた仕組み

Dev.to

ik_llama.cppのフォークがQwen 3.5 27Bでプロンプト処理を約26倍高速化 — 実測値

要点

💡 この記事が使われたインサイト

関連記事

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

Gmailで返信を自動作成、「Google AI Plus」で驚異の時短術

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

ムーンウェル・オラクルのエクスプロイト：AI支援の「バイブ・コーディング」でcbETHが1.12ドルのトークンになり、178万ドルの損失を招いた仕組み

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

TSMC、光電融合でライバル突き放しへ 半導体の設計情報「PDK」を広く提供

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

Gmailで返信を自動作成、「Google AI Plus」で驚異の時短術

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

ムーンウェル・オラクルのエクスプロイト：AI支援の「バイブ・コーディング」でcbETHが1.12ドルのトークンになり、178万ドルの損失を招いた仕組み

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供