| みなさん、こんにちは。 Box の開発者(メンテナー)をしています。これは、Google の AI Edge Gallery をフォークしたもので、Android 向けの完全オフライン AI アシスタントへと拡張してきました。 正直に言うと、このプロジェクトは私が作りました。 これは完全に端末上で動作します(クラウドなし、アカウントなし、外部推論なし)。さらに、複数のローカル推論バックエンドを 1 つのアプリに統合しています。 これまで試してきたこと目標は、次を使ってどこまで 完全オフラインのモバイル AI スタック を押し進められるかを確認することでした。
これらは、可能な限りハードウェアアクセラレーション(GPU / NPU / TPU)を使って、Android 上ですべて動作しています。 現在の機能
アーキテクチャの焦点開発していて面白いと感じた点:
レポジトリ(参考)なぜここで投稿しているのか主に、ローカル推論システムに取り組んでいる方々からのフィードバックを得たいと考えています。特に次のあたりです。
普及を押し進めたいというより、他のものより技術的な批評に関心があります。 役に立つのであれば、質問に答えたり、スタックのどの部分でも深掘りしたりできます。 [link] [comments] |
Androidでのハイブリッド・オンデバイス推論:llama.cpp+LiteRT+NPU/GPUルーティング
Reddit r/LocalLLaMA / 2026/5/2
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 提供者は、「Box」(GoogleのAI Edge Galleryのフォーク)について、クラウドでの推論やアカウントなしでAndroid上の完全オフラインAIアシスタントとして動かすことを目的に開発したと説明しています。
- このプロジェクトは、llama.cpp(GGUF LLM)、whisper.cpp(オフラインSTT)、stable-diffusion.cpp(画像生成)、実行基盤としてLiteRTを組み合わせたハイブリッドなオンデバイス構成を検証しています。
- ストリーミング型の音声対話や、ライブカメラ映像+自然言語でのQ&Aなどのマルチモーダル機能に加え、ローカルの文書をコンテキストとして取り込んだり、カスタムGGUFモデルを読み込めたりします。
- 重要な設計上の学びとして、LiteRT+llama.cppのハイブリッド推論は新しめのSnapdragon/PixelのNPUで想定以上に有効であり、CPU/GPU/NPU/TPUといったルーティングはモデルの生のサイズよりも効いてくることがある、と述べています。
- また、モバイルの多くのケースでは計算量より先にメモリ使用量や永続化がボトルネックになりやすいとしており、量子化戦略、実行時ルーティング、マルチモーダル・パイプライン、性能チューニングに関する技術的フィードバックを求めています。




