AIを使って、散らかった考えを片づけるのに手伝ってもらっています。たくさんの言葉を出し始めると、一貫性がなくなる傾向があります。
TL;DR: 発売日にB70を購入しました。Gemma 3 27BをvLLM(100 requests)で使って、驚異的な235 t/sを達成しましたが、ソフトウェアスタックは地獄でした。MoEはほとんどサポートされておらず、新しいアーキテクチャの定量化はとても脆く、あらゆる段階で環境と戦わされます。間違いなく繊細な人向けではありません。
みなさん、
私は27日に発売直後、Intel Arc Pro B70を注文しました。以前、7840HSでROCmをいじって格闘していたので、考えとしては「本当にどれだけ悪くなるっていうんだ?」でした。ところが、完全にめちゃくちゃになることもあります。
正直に言うと、つらさのかなりの部分は自分で自分に火をつけたものだと認めないといけません。このハードウェアのアップグレードを口実に、環境を丸ごと作り直しました:
OS: GUI付きのUbuntu 25.10から、Fedora 43 Serverへ移行。
エンジン: Ollama -> llama.cpp -> vLLMへ移行。(IntelはvLLMをかなり強力に支援していて、リクエスト密度を最適化したかったので、これは考えるまでもない選択に見えました)。
デプロイ: すべてをコンテナとIaCに移行。
コンテナ/IaCの方向に行けば、より安定して再現性が高くなると思いました。さらに、Claude Codeを使ってコンテナを組み立てることで、いくつかはごまかし(というか手助け)までしています。ですが、どこをどうしても、新しいモデルを動かすたびに大きな頭痛の種になっています。
良かった点
実際に動くと、スループットは素晴らしいです。Gemma 3 27BのIntel AutoRound量子化を動かすことができました。vLLMのベンチマークを走らせたところ、100 requestsにわたって235 t/sを生成できました。リクエスト密度を優先するローカルデプロイという前提では、まさに期待していた数字です。
悪かった点 & 落とし穴
いまのところ、エコシステムはまだ「摩擦ゼロ」の体験に対応できていません:
MoEサポート: Mixture of Expertsモデルは、まだ部分的にしかサポートされておらず、極めて気まぐれです。
量子化の悪夢: 現在、Gemma 4 26BをAutoRound経由で量子化して動かそうとしています。少なくとも30回は吹き飛ばされました。新しいアーキテクチャと動的なattention headが、現状のツール群とうまく噛み合っていません。
コンテナでのつまずき: IntelのドライバとvLLMを、コンテナ化された環境内でうまく共存させるために、少なくとも7種類もの「落とし穴」に遭遇しました。
このカードでllama.cppを立ち上げることさえまだ試していませんが、vLLMでの経験を踏まえると、自分をある程度覚悟させています。
最終的な感想
私のバックグラウンドはクラウドエンジニアです。WindowsとLinux環境でSaaSアプリをホスティングしてきた時間がかなりあります。なので私は純粋な開発者ではありませんが、開発に近いワークフローやインフラのトラブルシューティングにはとても慣れています。それでも、このB70に自分のやりたいことをさせるのは、上り坂の戦いでした。
プラグアンドプレイな体験を探しているなら、遠ざかった方がいいです。ですが、スタックと戦うだけの忍耐があるなら、バグの奥に隠れている生の性能指標は間違いなくそこにあります。
[link] [comments]




