ローカルLLMでのIntel Arc Pro B70の使用体験:速いが、(今のところ)完全にめちゃくちゃ

Reddit r/LocalLLaMA / 2026/4/9

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 著者は発売当初にIntelのArc Pro B70を購入し、動作する状態では、vLLMを使ってGemma 3 27Bを100リクエストで実行したときに235 t/sという非常に強いローカルLLMのスループットを報告している。
  • しかし性能にもかかわらず、ソフトウェアスタックの信頼性が低いと感じており、MoE(Mixture of Experts)対応は「中途半端にしか処理されておらず」、動作させるのが難しいと述べている。
  • 量子化が大きな悩みの種だ。Gemma 4 26Bの派生モデルでAutoRoundを試すと、繰り返し失敗し、著者は新しいモデルアーキテクチャと現行のツール群との非互換が原因だと考えている。
  • vLLMとIntelドライバをコンテナ内で動かすと、実現には大きな摩擦が生じる。環境依存の問題が複数発生し、セットアップを安定かつ再現可能にするために苦労した。
  • 全体としての体験は「速いが完全にめちゃくちゃ」で特徴づけられており、クラウドのエンジニアリング経験や開発寄りのトラブルシューティング経験がある人でもない限り、非専門ユーザーには優しくないと著者は警告している。

AIを使って、散らかった考えを片づけるのに手伝ってもらっています。たくさんの言葉を出し始めると、一貫性がなくなる傾向があります。

​TL;DR: 発売日にB70を購入しました。Gemma 3 27BをvLLM(100 requests)で使って、驚異的な235 t/sを達成しましたが、ソフトウェアスタックは地獄でした。MoEはほとんどサポートされておらず、新しいアーキテクチャの定量化はとても脆く、あらゆる段階で環境と戦わされます。間違いなく繊細な人向けではありません。

​みなさん、

​私は27日に発売直後、Intel Arc Pro B70を注文しました。以前、7840HSでROCmをいじって格闘していたので、考えとしては「本当にどれだけ悪くなるっていうんだ?」でした。ところが、完全にめちゃくちゃになることもあります。

​正直に言うと、つらさのかなりの部分は自分で自分に火をつけたものだと認めないといけません。このハードウェアのアップグレードを口実に、環境を丸ごと作り直しました:

​OS: GUI付きのUbuntu 25.10から、Fedora 43 Serverへ移行。

​エンジン: Ollama -> llama.cpp -> vLLMへ移行。(IntelはvLLMをかなり強力に支援していて、リクエスト密度を最適化したかったので、これは考えるまでもない選択に見えました)。

​デプロイ: すべてをコンテナとIaCに移行。

​コンテナ/IaCの方向に行けば、より安定して再現性が高くなると思いました。さらに、Claude Codeを使ってコンテナを組み立てることで、いくつかはごまかし(というか手助け)までしています。ですが、どこをどうしても、新しいモデルを動かすたびに大きな頭痛の種になっています。

​良かった点

​実際に動くと、スループットは素晴らしいです。Gemma 3 27BのIntel AutoRound量子化を動かすことができました。vLLMのベンチマークを走らせたところ、100 requestsにわたって235 t/sを生成できました。リクエスト密度を優先するローカルデプロイという前提では、まさに期待していた数字です。

​悪かった点 & 落とし穴

​いまのところ、エコシステムはまだ「摩擦ゼロ」の体験に対応できていません:

​MoEサポート: Mixture of Expertsモデルは、まだ部分的にしかサポートされておらず、極めて気まぐれです。

​量子化の悪夢: 現在、Gemma 4 26BをAutoRound経由で量子化して動かそうとしています。少なくとも30回は吹き飛ばされました。新しいアーキテクチャと動的なattention headが、現状のツール群とうまく噛み合っていません。

​コンテナでのつまずき: IntelのドライバとvLLMを、コンテナ化された環境内でうまく共存させるために、少なくとも7種類もの「落とし穴」に遭遇しました。

​このカードでllama.cppを立ち上げることさえまだ試していませんが、vLLMでの経験を踏まえると、自分をある程度覚悟させています。

​最終的な感想

​私のバックグラウンドはクラウドエンジニアです。WindowsとLinux環境でSaaSアプリをホスティングしてきた時間がかなりあります。なので私は純粋な開発者ではありませんが、開発に近いワークフローやインフラのトラブルシューティングにはとても慣れています。それでも、このB70に自分のやりたいことをさせるのは、上り坂の戦いでした。

​プラグアンドプレイな体験を探しているなら、遠ざかった方がいいです。ですが、スタックと戦うだけの忍耐があるなら、バグの奥に隠れている生の性能指標は間違いなくそこにあります。

submitted by /u/Icy_Gur6890
[link] [comments]