IntelノートPCでGemma 4 26B/31Bがこんなに速く動くのは普通ですか?(288V / CachyOS)

Reddit r/LocalLLaMA / 2026/4/12

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • 新しいローカルLLM利用者が、CachyOS上でIntel Core Ultra 9 288VノートPCにおいて、Gemma 4 MoEモデル(26B/31BのGGUF)が異常に速く動作することを報告した。
  • 最初はOllama/LM Studioで「ハードストップ」につまずき、またOpenVINOがこれらの大きなモデルでNPUとうまく統合できないことに苦戦していた。
  • 動作させるために、ユーザーはカスタムのVulkan GPUブリッジをコンパイルした。その後、GPU使用率は約95〜100%に達し、CPU使用率は控えめで、RAMはおよそ20〜24GBだった。
  • 報告されているスループットは、26Bモデルで16kコンテキストあたりおおむね7〜12トークン/秒、31Bモデルでは4〜8kコンテキストあたりである。加えて、これまでスワップは使用していないと述べている。
  • 投稿者は、このレベルの性能が内蔵グラフィックスとして典型的なのか、またIntel Lunar Lake級のハードウェアがローカルMoEモデルに特に強いのかを尋ねている。
IntelのノートPCでGemma 4 26B/31Bがこんなに速く動くのは普通ですか?(288V / CachyOS)

みなさんこんにちは。ローカルLLMを始めてからちょうど1週間くらいです。Core Ultra 9 288VでOllamaとLMStudioを試してみたのですが、MoEモデルだと失敗したり、 "強制停止(hard stops)" みたいな状態になったりしていたので、自分で環境を組み立ててみようと思いました。

これらの大きめのモデルでは、OpenVINOをNPUとうまく連携させることがまだできなかったので、とりあえずGPU向けにカスタムのVulkanブリッジを自作してコンパイルしました。それで動いているようです?

性能の統計:

  • モデル: Gemma-4-26B-it-i1 (GGUF)
  • 速度: 7-12 t/s(16kコンテキスト)
  • ハードウェア使用: GPU 95-100%、CPU 10-40%、RAM 20-24GB。

あと、31B-it-i1-Q4_K_M.gguf のバージョンも試しました。少し重いですが、まだ普通に使えます:

  • 速度: まあまあ/スムーズ(4-8kコンテキスト)
  • ハードウェア使用: GPU 100%、CPU 約30-60%(Xe2とロジックコアがうまく負荷を分担しているようです)。
  • RAM: 空き29GBのうち26GBまで押し込みますが、これまでスワップ使用は0GBです。

統合グラフィックスだと、こういう結果は普通ですか?最初はCPUでしか動かせず、そっちの方が速かったものの持続できない感じでした。でもVulkanブリッジを作ったら、バランスが取れてきました。もし関係があれば、CachyOSを使っています。

自分が何か見落としているのか、それともIntel Lunar LakeってローカルMoEだと本当にこんなに“すごい”んですかね。

submitted by /u/No-Key8555
[link] [comments]