Termux と llama.cpp を使って Android でローカル LLM を動かす

Reddit r/LocalLLaMA / 2026/4/6

💬 オピニオンSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

本記事では、Termux と llama.cpp を使って Android スマートフォン上でオープンソースのローカル LLM を動かす方法を示します。具体例として、GGUF 量子化を用いた Qwen3.5-0.8B を使います。
Termux に llama-cpp をインストールし、ダウンロードした .gguf モデルファイルを Termux で開くといった、実用的な手順（インストールとモデル設定）を説明します。
モデルへの操作は、端末から（llama-cli）行う方法と、ローカルのブラウザ UI から行う方法（localhost:8080 上で llama-server）があります。
性能テストでは、CPU スレッド数などのパラメータを調整することで推論スループット（TPS）が改善し、たとえば “-t 6” を使うことで TPS が約 3–4 から約 7–8 に向上したと報告しています。
著者は、より大きい／新しいモデル（例：8B の 1-bit GGUF バリアント）では異なるセットアップが必要で、TPS が低いため現時点ではまだ実用できなかったと述べており、端末ごとの調整が必要になることを示唆しています。

Running a local LLM on Android with Termux and llama.cpp

使ったもの

Samsung S21 Ultra
Termux
llama-cpp-cli
llama-cpp-server
huggingface から取得した Qwen3.5-0.8B（Q5_K_M の量子化）
（huggingface から Bonsai-8B-GGUF-1bit も試しました。これはより新しいモデルで、別のセットアップが必要でしたが、後で書けるかもしれません。生成速度は 2〜3 TPS で、使えるとまでは感じませんでした）

インストール

Google Play ストアから「Termux」アプリをダウンロードし、Termux に必要なツールをインストールしました：

 pkg update && pkg upgrade -y pkg install llama-cpp -y

モデルのダウンロード

スマホのブラウザで Qwen3.5-0.8B-Q5_K_M.gguf をダウンロードし、デバイスに保存しました。次に、ブラウザでダウンロードフォルダのショートカットを開き、GGUF ファイルを選択して、open with: Termux にしました。

これで、そのファイルは Termux からアクセス可能になります。

ターミナルで実行する

その後、モデルを読み込み、コマンドライン経由でチャットを開始しました。

llama-cli -m /path/to/model.gguf

ブラウザで実行する

また、llama-server でモデルを動かすことも試しました。Termux はバックグラウンドで動かしておき、ブラウザ上でより分かりやすい UI が得られるためです。ローカルサーバーを起動して、アドレスバーに localhost:8080 または 127.0.0.1:8080 と入力してブラウザで開くには、以下のコマンドを実行します。

llama-server -m /path/to/model.gguf

前のコマンドでは 3〜4 TPS しか出ませんでしたが、パラメータ「-t 6」を追加して（推論に CPU の 6 スレッドを割り当てる）、出力が 7〜8 TPS まで増えました。これは、さまざまなパラメータによって生成速度を高める可能性があることを示しています。

llama-server -m /path/to/model.gguf -t 6

結論

このようにスマホでオープンソースの LLM を動かすのは楽しい経験でした。しかも 2021 年のデバイスであることを考えると、より新しいスマホならもっと楽しい体験になるはずです。

もちろん、これが「最適なやり方」のガイドだというわけではありません。私は表面的なテストしかしていないからです。TPS を上げて、より最適なセットアップを実現するために、デバイスに応じて調整できるさまざまなパラメータがあります。

もしかしたら、これがあなたのスマホでも試してみるきっかけになったかもしれません。役に立つと嬉しいです！

投稿者 /u/Different_Drive_1095
[link] [comments]

Black Hat USA

AI Business

Black Hat Asia

AI Business

AIコーディングエディタ「Cursor 3」リリース。AIエージェントを中心に新たに構築

Publickey

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

日経XTECH

キオクシア、酸化物半導体で3次元DRAM サムスンと競う