Miyoo A30 のハンドヘルドに 0.5B の LLM を入れてみた。インターネットなしで、完全に端末内で動く。

Reddit r/LocalLLaMA / 2026/3/28

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

SpruceChat は、クラウドやインターネットをセットアップ後に必要とせず、llama.cpp を使ってハンドヘルドのゲーム機上で Qwen2.5 0.5B LLM をローカル実行できると報告されている。
投稿では、最初の起動後にモデルが RAM に保持されたままで、生成時にはトークンを段階的にストリーミングする、と主張している。
Miyoo A30（Cortex-A7 クアッドコア）では、モデルの初期ロードに約 60 秒、生成時の速度はおよそ 1〜2 トークン/秒、プロンプト評価は約 3 トークン/秒程度と説明されている。
Miyoo A30、Miyoo Flip、Trimui Brick、Trimui Smart Pro など複数の端末で動くとされ、ブラウザからアクセス可能な llama-server を介して Wi-Fi モードを任意で利用できる。
プロジェクトには、armhf と aarch64 のバイナリとモデルを同梱した初期リリースが含まれており、端末対応の拡大に向けた継続的な作業がある。

SpruceChat は llama.cpp を使って、ハンドヘルドのゲームデバイス上で Qwen2.5-0.5B を動かします。クラウド不要、Wi-Fi不要です。モデルは最初の起動後 RAM 上に常駐し、トークンが 1 つずつストリーミングされます。

動作対応: Miyoo A30、Miyoo Flip、Trimui Brick、Trimui Smart Pro

A30（Cortex-A7、クアッドコア）での性能: - モデルのロード: 約 60 秒（初回起動） - 生成: 約 1〜2 トークン/秒 - プロンプト評価: 約 3 トークン/秒

速いわけではないですが、ストリーミングするので考えている様子を見られます。64 ビット対応のデバイスの方が速いです。

この AI はトウヒの木のような性格です。忍耐強く、急がず、あらゆるものに静かに驚いています。

デバイスが Wi-Fi に接続されている場合は、スマホ/ラップトップのブラウザから llama-server にアクセスして、実際のキーボードでチャットすることもできます。

Claude の助けを得て作成しました。すでにデバイス対応を拡張する作業をしている共同開発者がいます。最初のリリースは armhf と aarch64 の両方のバイナリに加え、モデルも同梱されています。

AI Business

note

note

note

note