マルチLoRA対応のワン・フォー・オール基盤LLMにおけるエッジ展開とオンデバイス加速の解明

arXiv cs.AI / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、メモリ・レイテンシ・実行時の柔軟性に厳しい制約がある中で、Samsung Galaxy S24/S25のスマートフォン上でLLaMAベースの多言語基盤LLMを効率的に動作させるための、ハードウェアを意識したフレームワークを提案している。
  • アプリケーション固有のLoRAを実行時入力として用い、単一の固定推論グラフ上で複数用途を扱うことで、再コンパイルや追加メモリ負荷なしにタスクを動的に切り替えられる。
  • マルチストリーム復号により、正式・丁寧・陽気といったスタイルのバリエーションを1回のフォワードパスで同時生成し、レイテンシを最大6倍削減する。
  • トークン生成を高速化するために、別途ドラフトモデルを必要としない木構造の手法であるDynamic Self-Speculative Decoding(DS2D)を適用し、デコード時間を最大2.3倍改善する。
  • INT4量子化およびアーキテクチャ最適化と組み合わせることで、9言語・8タスクにわたる精度を維持しつつ、メモリとレイテンシを全体で4〜6倍向上させることを示している。

Abstract

スマートフォン上に大規模言語モデル(LLM)を展開することは、メモリ、レイテンシ、実行時の柔軟性という厳しい制約のため、重大なエンジニアリング上の課題を伴います。本研究では、Samsung Galaxy S24 および S25 デバイス(それぞれ Qualcomm の SM8650 および SM8750 チップセット)上で複数のユースケースを支える LLaMA ベースの多言語基盤モデルを、オンデバイスで効率的に推論するためのハードウェア認識型フレームワークを提案します。私たちのアプローチでは、アプリケーション固有の LoRA を実行時入力として、単一の凍結推論グラフに統合することで、再コンパイルやメモリ負荷なしに動的なタスク切り替えを可能にします。さらに、1 回のフォワードパス内で、フォーマル、丁寧、陽気といった様式のバリエーションを同時に生成するマルチストリーム復号メカニズムを導入し、レイテンシを最大 6 倍まで低減します。トークン生成を加速するために、下書きモデルを必要とせずに将来トークンを予測する、木構造に基づく戦略である Dynamic Self-Speculative Decoding(DS2D)を適用します。これにより、復号時間を最大 2.3 倍短縮します。INT4 への量子化とアーキテクチャレベルの最適化を組み合わせることで、本システムは 9 言語および 8 つのタスクにわたって精度を維持しつつ、メモリとレイテンシにおいて全体で 4~6 倍の改善を達成します。これらの結果は、エッジデバイス上にマルチユースケースの LLM を展開することの実用的な実現可能性を示しており、モバイルプラットフォームにおける生成AIの商用的な成立可能性を前進させます。