AI Navigate

MobileLLM-Flash: 産業規模を見据えたレイテンシ最適化オンデバイスLLM設計

arXiv cs.LG / 2026/3/18

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • MobileLLM-Flashは、モバイルレイテンシを最適化し、広範なハードウェア互換性を確保し、カスタムカーネルを用いずにオンデバイスLLMの産業規模デプロイを目指す、レイテンシを指標としたハードウェア・イン・ザ・ループ(HIL)アーキテクチャ検索を導入します。
  • 350M、650M、1.4Bのファウンデーションモデル群を提供し、最大8kのコンテキストに対応、モバイルCPU上でプリフィルを最大1.8倍、デコードを最大1.6倍の高速化を達成し、品質は同等かそれ以上です。
  • このアプローチは段階的な評価を用います。まず正確なレイテンシモデルを訓練し、次にレイテンシと品質のパレートフロンティア探索を実施します。候補は事前学習済みバックボーンの剪定版として扱われ、再訓練を最小化するために継承重みを持たせます。
  • 長文脈の加速のためにアテンションのスキップを用い、専門的なアテンション機構を回避します。また、Executorchのような標準的なモバイルランタイムとのデプロイ互換性を確保します。
  • 本研究は、オンデバイスLLM(OD-LLM)設計の実践的原則を提供し、産業規模デプロイを視野に入れたオンデバイスモデルの展開を想定しています。

概要: リアルタイムのAI体験は、リソース制約のあるハードウェア上での効率的な展開のために最適化されたオンデバイス型大規模言語モデル(OD-LLMs)を求めます。最も有用な OD-LLMs はほぼリアルタイムの応答を生成し、幅広いハードウェア互換性を示して、ユーザーの到達範囲を最大化します。モバイル遅延制約の下でこのようなモデルを設計するためのハードウェア・イン・ザ・ループ型アーキテクチャ探索の手法を提示します。このシステムは産業規模の展開に適しており、カスタムカーネルを必要とせずデプロイ可能なモデルを生成し、Executorch のような標準モバイルランタイムと互換性があります。私たちの方法論は特殊なアテンション機構を回避し、代わりに長い文脈の加速のためにアテンションのスキップを用います。
私たちのアプローチは、モデルアーキテクチャ(層、次元)とアテンションパターンを共同最適化します。候補を効率的に評価するために、各候補を事前学習済みバックボーンの剪定版として取り扱い、継承された重みを用いて、追加の事前学習を最小限に抑えつつ高い精度を達成します。遅延評価の低コストを段階的なプロセスで活用します:まず正確なレイテンシモデルを学習し、次にレイテンシと品質の間の Pareto-frontier を探索します。
これにより、MobileLLM-Flash というファミリーの基盤モデル(350M、650M、1.4B)が生まれます。デバイス上での効率的な使用を目的とし、強力な能力を備え、最大 8k コンテキスト長をサポートします。MobileLLM-Flash は、モバイル CPU 上でのプリフィルとデコードを最大で 1.8 倍および 1.6 倍速く提供し、同等またはより高い品質を実現します。Pareto-frontier 設計選択の分析は、OD-LLM 設計に対する実用的な原則を提供します。