AI Navigate

Raspberry Pi 5 上の Qwen 3.5 35B A3B の最新情報

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュース

原文を読む →

共有:

要点

元のリポジトリと ik_llama の調整を組み合わせた llama.cpp の修正版ワークフローとプロンプトキャッシュを使用して、Raspberry Pi 5 上で Qwen 3.5 35B A3B を実行するデモを著者が実演しています。

Update on Qwen 3.5 35B A3B on Raspberry PI 5

Raspberry Pi の推論セットアップにさらに作業を進めました。

llama.cppを修正しました（元のリポジトリと ik_llama の組み合わせ、そしていくつかの調整）
さまざまな量子化、パラメータ等を試しました。
プロンプトキャッシュ（ik_llama は ARM 上でいくつか問題があるため、まだ 100% 調整されていませんが、着実に近づいています）

上記のデモは、以下の特定の量子化を実行しています: https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/blob/main/Qwen3.5-35B-A3B-UD-Q2_K_XL.gguf

現在期待できる数値（すべて16kコンテキスト、ビジョンエンコーダー有効でのテスト）:

2ビットの比較的大きめの量子化: Qwen3.5 35B A3B: 16GB の Raspberry Pi で約 3.5 トークン/秒、SSD 有効の 8GB Pi で約 2.5 トークン/秒。トークン/秒あたりのプロンプト処理は約 50 秒程度です。
より小さめの 2ビット量子化: 最大で約 4.5 トークン/秒、SSD 8GB のものは約 3 トークン/秒程度
Qwen3.5 2B 4-bit: 両方で約 8 トークン/秒、実際かなり印象的です
Qwen3.5 4B は A3B と同様に動作します

皆さんの感想を教えてください。また、Pi 5をお持ちの方で試してみたい、いじってみたいという方がいれば教えてください。私は現在、以下のような他の調整も積極的にテストしています（例えば非対称KVキャッシュの量子化。プロンプト処理のブーストがかなり良い効果をもたらします）

投稿者 /u/jslominski
[リンク] [コメント]

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。