ローカルAIアップデート:llama.cppのMTP、vLLMでGemma 4を高速化、OllamaのCoderベンチマーク

Dev.to / 2026/5/9

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • オープンソースの llama.cpp は Multi-Token Prediction(MTP)を追加し、GGUFで量子化した Gemma 4 26B で、MacBook Pro M5Max 上の初期ベンチマークではトークン生成速度が約40%向上したと報告されています。
  • 別のローカル計測では、vLLM 0.19.2rc1 と DFlash の speculative decoding を用いることで、RTX 5090(32GB VRAM)1枚で Gemma 4 26B が約600 tokens/秒に到達したとされています。
  • これらの高速化はどちらも、生成時の逐次ステップを減らすために、speculative/並列化されたデコード手法に依存しています。
  • さらにコミュニティでは、Ollama 向けに Qwen と DeepSeek のコーディングモデルの実用ベンチマークも共有され、ローカル開発の評価をしやすくする狙いがあります。

ローカルAIアップデート:llama.cppのMTP、vLLMのGemma 4高速化(4つの速度)、Ollamaのコーダーベンチマーク

今週の注目ポイント

今週、llama.cpp は Gemma 26B で 40% の速度向上となるマルチトークン予測(Multi-Token Prediction)を獲得し、一方 vLLM は DFlash を使って RTX 5090 上で Gemma 4 26B を 600 tok/s まで押し上げています。さらに Ollama コミュニティも、ローカル開発向けに Qwen と DeepSeek のコーディングモデルについて実用的なベンチマークを提供しています。

LLaMA.cpp向けマルチトークン予測(MTP)がGemma 4を40%高速化(r/LocalLLaMA)

Source: https://reddit.com/r/LocalLLaMA/comments/1t6se6r/multitoken_prediction_mtp_for_llamacpp_gemma_4/

人気の llama.cpp プロジェクトが、ローカルの大規模言語モデル推論を大幅に加速する手法であるマルチトークン予測(MTP)を導入しました。この新機能により llama.cpp は複数のトークンを同時に下書きできるようになり、デコード速度と全体のスループットが大きく向上します。複数トークンを並列で予測し、それをメインモデルで検証することで、生成に必要な逐次処理の回数が減り、ローカルLLM体験がより滑らかで反応のよいものになります。

GGUF形式の量子化された Gemma 4 アシスタントモデルを用いた初期ベンチマークでは、目を引く性能向上が示されています。強力な消費者向けデバイスである MacBook Pro M5Max で実施したテストでは、MTP を動作させた際に Gemma 26B モデルが、トークン生成速度で実に 40% の増加を達成しました。この改善は、消費者向けグレードのハードウェアで推論スループットを最大化したいユーザーにとって重要です。高度な能力が、日常的なセットアップにより近づくことになります。MTP が llama.cpp に統合されたことは、効率的なローカルAIの限界を押し広げ、ユーザー体験を改善するために、オープンソース・コミュニティが継続的に革新していることを裏付けています。

コメント:私の MacBook Pro にとって、llama.cpp の MTP はゲームチェンジャーです。Gemma 26B で 40% のブーストが見えるので、ローカル開発のループがかなり速くなりました。特に GGUF モデルでは効果が大きいです。

Gemma 4 26B、vLLMのDFlash(推論の憶測デコード)で RTX 5090 上にて 600 Tok/s を達成(r/LocalLLaMA)

Source: https://reddit.com/r/LocalLLaMA/comments/1t796qe/gemma_4_26b_hits_600_toks_on_one_rtx_5090/

新しいベンチマークは、Gemma 4 26B モデルの優れた性能を強調しています。とりわけ cyankiwi/gemma-4-26B-A4B-it-AWQ-4bit のバリアントでは、32GB の VRAM を搭載した単一の RTX 5090 GPU で、驚異的な 1 秒あたり 600 トークンを到達しています。この速度は vLLM バージョン 0.19.2rc1 を使用し、z-lab が推論加速のために先駆けて開発した手法である DFlash の推測デコードを活用して得られたものです。

構成としては、より小さな下書きモデルを使って、起こり得るトークン列を事前生成し、メインモデルがそれを素早く検証します。この推測的アプローチは、トークンごとの計算負荷を大幅に減らし、結果としてスループットを高めます。大きなオープンウェイト・モデルをローカルで動かしている開発者や愛好家にとって、これらの結果は、DFlash や効率的な量子化(AWQ-4bit)といった先進的な加速技術を、強力な消費者向けハードウェアと組み合わせることで、ほぼリアルタイムに近い生成速度を実現できる可能性を示しています。これは、単一のハイエンド消費者向けGPUで可能なことの限界を押し広げるものであり、ローカル推論環境を最適化するための明確な目標にもなります。

コメント:5090 を1枚で Gemma 4 と DFlash を使って 600 tok/s って信じられないほどすごいです。vLLM と賢いデコードによって、強力な消費者向けGPUが本格的な推論マシンになることを、本当に示してくれています。特に AWQ 量子化を使うと効果が大きいです。

Ollamaコミュニティがローカルでのコード生成向けに Qwen3.6、Qwen3-Coder、DeepSeek-Coder のベンチマークを公開(r/Ollama)

Source: https://reddit.com/r/ollama/comments/1t76uh0/compared_qwen36_qwen3coder_and_deepseekcoder_on/

Ollama コミュニティが、Ollama プラットフォームを通じてすべてローカルで動作させた、複数の人気のオープンウェイト・コーディングモデルについて、有用な比較を公開しました。この実用的なベンチマークでは、qwen3.6qwen3-coder、および deepseek-coder を対象に、3つの重要なコーディング・ベンチマークにおける長所と短所を評価しました。これには、一般的なコード生成タスク、関数呼び出しの精度、「思考チェーン」タスクによるマルチステップの問題解決能力が含まれます。

このようなコミュニティ主導の取り組みは、ローカル開発においてどのモデルが自分のニーズに最も合うかを判断するのに役立ち、広範な個人的な試行を必要とせずに、明確な洞察を提供してくれます。また、自前ホストのマシンで複数のLLMを走らせて評価する際に、Ollama が柔軟で使いやすいことも浮き彫りにしています。直接的な性能と能力の比較を提供することで、コミュニティは開発者が情報に基づいた選択をできるよう後押しし、自前ホストのコーディングAIエージェントやツールにおいて最も効果的なモデルを活用できるようにします。結果として、消費者向けマシンにおけるより効率的なローカルAI開発とリソース配分が促進されます。

コメント:この Ollama の比較は、ローカルのコーディングLLMを選ぶのにとても役立ちます。推測する代わりに、私の具体的なコード生成タスクで Qwen や DeepSeek-Coder の方がうまく動くかをすぐに確認できます。ディスク容量と時間の節約にもなります。