ここ数か月、OnePlus CE 5(8GB RAM)でGemma 4 E2Bをローカル実行しています。サイズの割にチャットの品質は問題ありません。驚いたのはJSON出力です。短い入力でも、きちんとしたプロンプトを渡すと、きれいに解釈可能なJSONが返ってきます。電話で2.4GBのモデルとは思えないほど、期待以上でした。
音声メモのことを考えさせられました。数秒間だらだら話して、「明日3時に歯医者に電話して、あと帰りに牛乳も買って」と伝えると、Gemmaがそれを別々の項目に分割し、各項目にタグを付け(リマインド、買い物など)、時間も解決してくれます。数週間試しました。分類は、最初に始めた“おもちゃみたいな”メモだけでなく、実際のメモでもちゃんとしています。
それをベースにAndroidアプリを作りました。Whisper Small(244MB)をSherpa-ONNX経由で文字起こしに、Gemma 4 E2B(2.4GB)をLiteRT-LM経由で分割と分類に使っています。どちらも端末で動きます。クラウドもアカウントも不要です。
CE 5上でエンドツーエンド実行すると、典型的な10〜15秒の音声メモは約12〜15秒かかります。Whisperは文字起こしを約5秒で行い、Gemmaは分類を約8〜10秒で行います。残りはモデルのロード、Roomへの書き込み、UIの切り替えです。
検索時(例えば->「先週、歯医者について何て言ったっけ?」)には、クエリ拡張を行い、ユーザーの質問をキーワードと、仮の例となる項目に書き換えてから検索します。複数のFTSレーンが相互ランク融合(reciprocal rank fusion)で統合され、その後、上位K件に対して15秒のタイムアウト付きでGemmaのリランカー(reranker)をオプションで通します。終わらない場合はRRFの順序にフォールバックします。
最近、ここでローカルLLMをスマホでどう使っているか気になります。ローカル端末で試すのに他に良いモデルはありますか。
誰かが自分の端末で試してフィードバックを共有したいなら、喜んで共有します。主に、分類が実際のメモでどれだけ保てるか、そして最初のモデルでの変な挙動がないかを知りたいです。
[link] [comments]




