Gemma 4はAndroid端末上で“実用的に”動作している(llama.cppではなく)

Reddit r/artificial / 2026/4/19

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • この投稿では、Termux上のllama.cppで遅い(かつ端末が熱くなる)問題を避け、GoogleのLiteRT構成を使うことでGemma 4をAndroidの実機上で“実用的”なローカルLLMとして動かせると主張しています。
  • 著者は、llama.cpp(約2〜3トークン/秒で発熱)からLiteRTへ切り替えることで、スムーズに動作したと述べています。
  • さらに、Android端末上のモデルをTermux上で動くエージェントのワークフローに統合したと説明しています。
  • その結果、1台のスマホでLLMをローカル実行し、ADBでアプリを自動化し、必要に応じてオフライン動作にもできるとしています。
  • 著者は、追加で作りたいもののアイデアや、実装の詳細・コード共有を歓迎しています。
Gemma 4 が Android スマホで実際に動いて使える状態に(llama.cpp ではありません)

デモではなく、スマホ上で動く本物のローカルアシスタントが欲しかったんです。

まずはいつもの Termux の llama.cpp で試したところ、Gemma 4 は 2〜3 tok/s で、電話は発熱で熱々でした。次に Google の LiteRT 設定に切り替えたら、Gemma 4 がスムーズに動き始め、そのまま Termux 上で動くエージェントスタックに組み込みました。

今、Android のスマホ 1 台で:

  • LLM をローカルで動かす
  • ADB による自動で自分のアプリ操作を行う
  • 必要ならオフラインのままにする

詳細+コードを共有するのは喜んでやりますし、これを土台にあなたなら何を作るかも聞かせてください。

https://preview.redd.it/7vkbrlzfryvg1.jpg?width=3024&format=pjpg&auto=webp&s=25455827ddf9715b4159ce64a18deba812cf0f5f

によって送信 /u/GeeekyMD
[リンク] [コメント]