| みなさんこんにちは。ローカルLLMを始めてからちょうど1週間くらいです。Core Ultra 9 288VでOllamaとLMStudioを試してみたのですが、MoEモデルだと失敗したり、 "強制停止(hard stops)" みたいな状態になったりしていたので、自分で環境を組み立ててみようと思いました。 これらの大きめのモデルでは、OpenVINOをNPUとうまく連携させることがまだできなかったので、とりあえずGPU向けにカスタムのVulkanブリッジを自作してコンパイルしました。それで動いているようです? 性能の統計:
あと、31B-it-i1-Q4_K_M.gguf のバージョンも試しました。少し重いですが、まだ普通に使えます:
統合グラフィックスだと、こういう結果は普通ですか?最初はCPUでしか動かせず、そっちの方が速かったものの持続できない感じでした。でもVulkanブリッジを作ったら、バランスが取れてきました。もし関係があれば、CachyOSを使っています。 自分が何か見落としているのか、それともIntel Lunar LakeってローカルMoEだと本当にこんなに“すごい”んですかね。 [link] [comments] |
IntelノートPCでGemma 4 26B/31Bがこんなに速く動くのは普通ですか?(288V / CachyOS)
Reddit r/LocalLLaMA / 2026/4/12
💬 オピニオンSignals & Early TrendsTools & Practical Usage
要点
- 新しいローカルLLM利用者が、CachyOS上でIntel Core Ultra 9 288VノートPCにおいて、Gemma 4 MoEモデル(26B/31BのGGUF)が異常に速く動作することを報告した。
- 最初はOllama/LM Studioで「ハードストップ」につまずき、またOpenVINOがこれらの大きなモデルでNPUとうまく統合できないことに苦戦していた。
- 動作させるために、ユーザーはカスタムのVulkan GPUブリッジをコンパイルした。その後、GPU使用率は約95〜100%に達し、CPU使用率は控えめで、RAMはおよそ20〜24GBだった。
- 報告されているスループットは、26Bモデルで16kコンテキストあたりおおむね7〜12トークン/秒、31Bモデルでは4〜8kコンテキストあたりである。加えて、これまでスワップは使用していないと述べている。
- 投稿者は、このレベルの性能が内蔵グラフィックスとして典型的なのか、またIntel Lunar Lake級のハードウェアがローカルMoEモデルに特に強いのかを尋ねている。




