IntelノートPCでGemma 4 26B/31Bがこんなに速く動くのは普通ですか？（288V / CachyOS）

Reddit r/LocalLLaMA / 2026/4/12

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

新しいローカルLLM利用者が、CachyOS上でIntel Core Ultra 9 288VノートPCにおいて、Gemma 4 MoEモデル（26B/31BのGGUF）が異常に速く動作することを報告した。
最初はOllama/LM Studioで「ハードストップ」につまずき、またOpenVINOがこれらの大きなモデルでNPUとうまく統合できないことに苦戦していた。
動作させるために、ユーザーはカスタムのVulkan GPUブリッジをコンパイルした。その後、GPU使用率は約95〜100%に達し、CPU使用率は控えめで、RAMはおよそ20〜24GBだった。
報告されているスループットは、26Bモデルで16kコンテキストあたりおおむね7〜12トークン/秒、31Bモデルでは4〜8kコンテキストあたりである。加えて、これまでスワップは使用していないと述べている。
投稿者は、このレベルの性能が内蔵グラフィックスとして典型的なのか、またIntel Lunar Lake級のハードウェアがローカルMoEモデルに特に強いのかを尋ねている。

IntelのノートPCでGemma 4 26B/31Bがこんなに速く動くのは普通ですか？（288V / CachyOS）

みなさんこんにちは。ローカルLLMを始めてからちょうど1週間くらいです。Core Ultra 9 288VでOllamaとLMStudioを試してみたのですが、MoEモデルだと失敗したり、 "強制停止（hard stops）" みたいな状態になったりしていたので、自分で環境を組み立ててみようと思いました。

これらの大きめのモデルでは、OpenVINOをNPUとうまく連携させることがまだできなかったので、とりあえずGPU向けにカスタムのVulkanブリッジを自作してコンパイルしました。それで動いているようです？

性能の統計: