Ollama 0.19 でローカル LLM が実用レベルになったか検証してみた

Zenn / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

Ollama 0.19 のアップデートを前提に、ローカルLLMが実用レベルに達したかをベンチマーク/検証する内容である。

Ollama 0.19 がリリースされた。Apple の機械学習フレームワーク MLX をバックエンドに採用し、Apple Silicon での推論が高速化されたとのこと。公式ブログでは M5 で Prefill 1810 tok/s、Decode 112 tok/s という数値が出ている。自分の M5 Max 環境でも体感で速くなったので、普段使っているモデルで 0.18 と 0.19 を計測して比較した。厳密なベンチマークではなく、どこで何が速くなったかを自分の環境で確認するのが目的だ。ただし調べてみると、速くなった理由は「MLX になったから」ではなかった。先に結論だけ書いてお...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →