Gemma 4はAndroid端末上で“実用的に”動作している（llama.cppではなく）

Reddit r/artificial / 2026/4/19

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

この投稿では、Termux上のllama.cppで遅い（かつ端末が熱くなる）問題を避け、GoogleのLiteRT構成を使うことでGemma 4をAndroidの実機上で“実用的”なローカルLLMとして動かせると主張しています。
著者は、llama.cpp（約2〜3トークン/秒で発熱）からLiteRTへ切り替えることで、スムーズに動作したと述べています。
さらに、Android端末上のモデルをTermux上で動くエージェントのワークフローに統合したと説明しています。
その結果、1台のスマホでLLMをローカル実行し、ADBでアプリを自動化し、必要に応じてオフライン動作にもできるとしています。
著者は、追加で作りたいもののアイデアや、実装の詳細・コード共有を歓迎しています。

Gemma 4 が Android スマホで実際に動いて使える状態に（llama.cpp ではありません）

デモではなく、スマホ上で動く本物のローカルアシスタントが欲しかったんです。

まずはいつもの Termux の llama.cpp で試したところ、Gemma 4 は 2〜3 tok/s で、電話は発熱で熱々でした。次に Google の LiteRT 設定に切り替えたら、Gemma 4 がスムーズに動き始め、そのまま Termux 上で動くエージェントスタックに組み込みました。

今、Android のスマホ 1 台で：