AI Navigate

Raspberry Pi 5 上の Qwen 3.5 35B A3B の最新情報

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュース

要点

  • 元のリポジトリと ik_llama の調整を組み合わせた llama.cpp の修正版ワークフローとプロンプトキャッシュを使用して、Raspberry Pi 5 上で Qwen 3.5 35B A3B を実行するデモを著者が実演しています。
Update on Qwen 3.5 35B A3B on Raspberry PI 5

Raspberry Pi の推論セットアップにさらに作業を進めました。

  1. llama.cppを修正しました(元のリポジトリと ik_llama の組み合わせ、そしていくつかの調整)
  2. さまざまな量子化、パラメータ等を試しました。
  3. プロンプトキャッシュ(ik_llama は ARM 上でいくつか問題があるため、まだ 100% 調整されていませんが、着実に近づいています)

上記のデモは、以下の特定の量子化を実行しています: https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/blob/main/Qwen3.5-35B-A3B-UD-Q2_K_XL.gguf

現在期待できる数値(すべて16kコンテキスト、ビジョンエンコーダー有効でのテスト):

  1. 2ビットの比較的大きめの量子化: Qwen3.5 35B A3B: 16GB の Raspberry Pi で約 3.5 トークン/秒、SSD 有効の 8GB Pi で約 2.5 トークン/秒。トークン/秒あたりのプロンプト処理は約 50 秒程度です。
  2. より小さめの 2ビット量子化: 最大で約 4.5 トークン/秒、SSD 8GB のものは約 3 トークン/秒程度
  3. Qwen3.5 2B 4-bit: 両方で約 8 トークン/秒、実際かなり印象的です
  4. Qwen3.5 4B は A3B と同様に動作します

皆さんの感想を教えてください。また、Pi 5をお持ちの方で試してみたい、いじってみたいという方がいれば教えてください。私は現在、以下のような他の調整も積極的にテストしています(例えば非対称KVキャッシュの量子化。プロンプト処理のブーストがかなり良い効果をもたらします)

投稿者 /u/jslominski
[リンク] [コメント]