| 使ったもの
インストールGoogle Play ストアから「Termux」アプリをダウンロードし、Termux に必要なツールをインストールしました: モデルのダウンロードスマホのブラウザで Qwen3.5-0.8B-Q5_K_M.gguf をダウンロードし、デバイスに保存しました。次に、ブラウザでダウンロードフォルダのショートカットを開き、GGUF ファイルを選択して、 これで、そのファイルは Termux からアクセス可能になります。 ターミナルで実行するその後、モデルを読み込み、コマンドライン経由でチャットを開始しました。 ブラウザで実行するまた、llama-server でモデルを動かすことも試しました。Termux はバックグラウンドで動かしておき、ブラウザ上でより分かりやすい UI が得られるためです。ローカルサーバーを起動して、アドレスバーに 前のコマンドでは 3〜4 TPS しか出ませんでしたが、パラメータ「-t 6」を追加して(推論に CPU の 6 スレッドを割り当てる)、出力が 7〜8 TPS まで増えました。これは、さまざまなパラメータによって生成速度を高める可能性があることを示しています。 結論このようにスマホでオープンソースの LLM を動かすのは楽しい経験でした。しかも 2021 年のデバイスであることを考えると、より新しいスマホならもっと楽しい体験になるはずです。 もちろん、これが「最適なやり方」のガイドだというわけではありません。私は表面的なテストしかしていないからです。TPS を上げて、より最適なセットアップを実現するために、デバイスに応じて調整できるさまざまなパラメータがあります。 もしかしたら、これがあなたのスマホでも試してみるきっかけになったかもしれません。役に立つと嬉しいです! [link] [comments] |
Termux と llama.cpp を使って Android でローカル LLM を動かす
Reddit r/LocalLLaMA / 2026/4/6
💬 オピニオンSignals & Early TrendsTools & Practical Usage
要点
- 本記事では、Termux と llama.cpp を使って Android スマートフォン上でオープンソースのローカル LLM を動かす方法を示します。具体例として、GGUF 量子化を用いた Qwen3.5-0.8B を使います。
- Termux に llama-cpp をインストールし、ダウンロードした .gguf モデルファイルを Termux で開くといった、実用的な手順(インストールとモデル設定)を説明します。
- モデルへの操作は、端末から(llama-cli)行う方法と、ローカルのブラウザ UI から行う方法(localhost:8080 上で llama-server)があります。
- 性能テストでは、CPU スレッド数などのパラメータを調整することで推論スループット(TPS)が改善し、たとえば “-t 6” を使うことで TPS が約 3–4 から約 7–8 に向上したと報告しています。
- 著者は、より大きい/新しいモデル(例:8B の 1-bit GGUF バリアント)では異なるセットアップが必要で、TPS が低いため現時点ではまだ実用できなかったと述べており、端末ごとの調整が必要になることを示唆しています。



