iPhone上でQwen3.5 35Bを5.6トークン/秒で実行してみた。

Reddit r/LocalLLaMA / 2026/3/22

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

Redditのユーザーは、4ビット量子化と256個のエキスパートを用いたMoE構成で、Qwen3.5 35BをiPhone上で完全にオンデバイス実行していると報告しています。
このアプローチは、エキスパートのGPUへSSDストリーミングを利用することで、大規模モデルのオンデバイス推論を効率化します。
著者はAppleのMetal推論エンジンをiOSに移植し、最適化を追加して、能力を示すための基本的なアプリを作成しました。
379Bモデル用の重みの用意を進めており、次に動作させる予定で、継続的なスケーリングの進行を示唆しています。
これは、モバイルデバイス上で大規模言語モデルをローカルで実行することの実現性が高まっていることを示しており、クラウド依存を低減する可能性があります。

4ビットで完全にデバイス上で、256名の専門家とともに。

MoEモデルの専門家のGPUへSSDストリーミングを使用します。

Dan Woods の記事を見て、Metal 推論エンジンを iOS に移植し、いくつかの最適化を加え、基本的なアプリを作ることにしました。

現在、379Bモデルの重みを生成しており、次にそれを動かす予定です。

note

日経XTECH

Reddit r/LocalLLaMA

Dev.to

Dev.to