LiteRT-LM + Gemma 4 でエッジ推論を始める：2 トラック設計の選び方とファインチューニング判断基準

Zenn / 5/7/2026

💬 OpinionDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

Key Points

LiteRT-LM と Gemma 4 を組み合わせて、エッジ環境での推論を現実的に始めるための全体方針を整理する内容になっている。
2 トラック設計（構成の切り分け方）をどう選ぶかの考え方が示され、要件（遅延・メモリ・精度）に応じた設計判断を促している。
ファインチューニングを行う/行わない判断基準が提示され、コストやデータ準備、期待できる改善量とのバランスを見極める観点が中心になっている。
エッジ推論の実装・運用に向けた具体的な選定フレーム（モデル活用と調整の優先順位）が読み取れる。

TL;DR モバイル／エッジ向け AI 設計には System-level GenAI（2–5B params）と In-app Tiny LLM（< 1B params）の 2 トラックがあり、用途に応じて選択基準が異なる Google の Gemma 4 E2B / E4B モデルは Apache 2.0 ライセンス、マルチモーダル対応で、Raspberry Pi で約 133 tok/s を達成する（※計測環境の詳細は後述） Tiny LLM へのタスク特化ファインチューニングは Function calling タスクで 40% → 86% の正解率向上が報告され...

Continue reading this article on the original site.

Read original →