Gemma 4 E2B、8GBのAndroid端末でも意外と動いたので“プライベート音声メモ”アプリを作った

Reddit r/LocalLLaMA / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は8GBのAndroid端末でGemma 4 E2Bをローカル実行し、チャット品質は許容できる一方で、特に読み取り可能で整ったJSON出力が想像以上に安定している点に驚いたと述べています。
  • その挙動を活かし、音声メモ用のAndroidアプリを作成し、Whisper Smallで文字起こしを行い、Gemmaで冗長な発話を個別のリマインダー要素に分割・タグ付けし、日時も解決するとしています。
  • 10〜15秒の音声メモの処理時間は全体で約12〜15秒で、文字起こしが約5秒、分類・分割が約8〜10秒、残りはモデル読み込み、保存(Roomへの書き込み)、UI更新などのオーバーヘッドだと説明しています。
  • 検索では、ユーザーの質問をキーワードや仮の例を含む形に拡張・書き換えてから、複数のFTS経路の取得結果を相互ランク融合で統合し、必要に応じて上位をリランカーで再評価(タイムアウトあり)するとしています。
  • 投稿では、スマホ上でローカルLLMをどんなモデルで動かしているかの共有を求め、特に実メモでの分類の頑健性や、初回実行時の挙動の違いについて知りたいと呼びかけています。

ここ数か月、OnePlus CE 5(8GB RAM)でGemma 4 E2Bをローカル実行しています。サイズの割にチャットの品質は問題ありません。驚いたのはJSON出力です。短い入力でも、きちんとしたプロンプトを渡すと、きれいに解釈可能なJSONが返ってきます。電話で2.4GBのモデルとは思えないほど、期待以上でした。

音声メモのことを考えさせられました。数秒間だらだら話して、「明日3時に歯医者に電話して、あと帰りに牛乳も買って」と伝えると、Gemmaがそれを別々の項目に分割し、各項目にタグを付け(リマインド、買い物など)、時間も解決してくれます。数週間試しました。分類は、最初に始めた“おもちゃみたいな”メモだけでなく、実際のメモでもちゃんとしています。

それをベースにAndroidアプリを作りました。Whisper Small(244MB)をSherpa-ONNX経由で文字起こしに、Gemma 4 E2B(2.4GB)をLiteRT-LM経由で分割と分類に使っています。どちらも端末で動きます。クラウドもアカウントも不要です。

CE 5上でエンドツーエンド実行すると、典型的な10〜15秒の音声メモは約12〜15秒かかります。Whisperは文字起こしを約5秒で行い、Gemmaは分類を約8〜10秒で行います。残りはモデルのロード、Roomへの書き込み、UIの切り替えです。

検索時(例えば->「先週、歯医者について何て言ったっけ?」)には、クエリ拡張を行い、ユーザーの質問をキーワードと、仮の例となる項目に書き換えてから検索します。複数のFTSレーンが相互ランク融合(reciprocal rank fusion)で統合され、その後、上位K件に対して15秒のタイムアウト付きでGemmaのリランカー(reranker)をオプションで通します。終わらない場合はRRFの順序にフォールバックします。

最近、ここでローカルLLMをスマホでどう使っているか気になります。ローカル端末で試すのに他に良いモデルはありますか。
誰かが自分の端末で試してフィードバックを共有したいなら、喜んで共有します。主に、分類が実際のメモでどれだけ保てるか、そして最初のモデルでの変な挙動がないかを知りたいです。

submitted by /u/Effective-Drawer9152
[link] [comments]