LiteRT-LMでGemma 4 E4B-itをiOS向けにビルドしてオンデバイス推論する

Zenn / 4/4/2026

💬 OpinionDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

Key Points

LiteRT-LMを使ってGemma 4 E4B-itをiOS向けにビルドし、端末上で推論（オンデバイス実行）できる手順・考え方を紹介している。
モデルのiOSへの載せ替え（ビルド〜実行）に必要な技術スタックやセットアップ上のポイントに焦点が当たっている。
オンデバイス推論により、通信に依存しない推論やプライバシー面での利点を狙う実装事例として位置付けられる。
モバイル向けの軽量LLM/推論最適化の実務的な参考情報として活用できる内容になっている。

1. はじめに LiteRT-LM は Google AI Edge が提供するオンデバイス LLM 推論フレームワークです（公式ドキュメント）。同じ用途では llama.cpp が広く使われていますが、両者はモデル形式・量子化方式・GPU/NPU バックエンドで設計思想が異なります。項目 llama.cpp LiteRT-LM 提供元コミュニティ（ggml-org） Google（google-ai-edge）モデル形式 GGUF .litertlm 量子化 1.5〜8-bit整数 2/4/8-bit混合（モデル依存） GPU対応 Metal, CU...

Continue reading this article on the original site.

Read original →