エッジ上でのマルチLoRAベースのワンフォーオール生成ビジョンモデルを可能にするための、統一型ユニファイド適応蒸留による量子化

arXiv cs.CV / 2026/4/1

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LoRA重みを実行時入力として用いることで、アダプタごとに別々のバイナリを再コンパイルすることなくタスクを動的に切り替え可能な、マルチタスク生成ビジョンモデル向けの統一的なエッジ展開フレームワークを提案する。
複数のLoRAアダプタを共有の量子化プロファイルのもとで整合させ、オンデバイス実行を効率化する量子化対応学習手法として、QUAD（Quantization with Unified Adaptive Distillation）を導入する。
モバイルNPUに対応するための軽量なモバイル実行基盤を実装し、複数のエッジ向けチップセットで評価する。
実験では、いくつかのGenAIタスクにおいて強力な視覚品質を維持しつつ、メモリ使用量を最大6倍削減し、レイテンシを最大4倍改善したと報告している。

概要: 画像編集、オブジェクト除去、プロンプトに導かれる画像変換といった生成的人工知能（GenAI）の機能は、モバイルアプリケーションにますます統合されつつあります。しかし、リソースが制約されたデバイス上で、このようなタスクのために大規模ビジョンモデル（LVMs）を導入することは、メモリと計算量の要求が高いため依然として困難です。低ランク・アダプタ（LoRA）はパラメータ効率のよいタスク適応を可能にしますが、既存のモバイル展開パイプラインでは一般に、各LoRAごとに個別のモデルバイナリをコンパイルし、さらに基盤モデルのコピーも別途用意するため、冗長なストレージが生じ、実行時のオーバーヘッドも増大します。本研究では、単一の共有モデルを用いてエッジデバイス上でマルチタスクのGenAI推論を可能にする統一的フレームワークを提案します。我々の主要な着想は、LoRAの重みをコンパイルされたモデルグラフに埋め込むのではなく、実行時の入力として扱うことにより、再コンパイルなしで実行時に動的にタスクを切り替えられるようにする点です。さらに、オンデバイスでの効率的な実行を支えるために、QUAD（Quantization with Unified Adaptive Distillation）を導入します。これは、共有された量子化プロファイルのもとで複数のLoRAアダプタを整合させる、量子化を意識した学習（quantization-aware training）戦略です。提案するシステムを、モバイルNPUと互換な軽量ランタイムスタックとして実装し、複数のチップセットにわたって評価しました。実験結果は、複数のGenAIタスクにおいて高い視覚品質を維持しつつ、メモリ使用量とレイテンシに関してそれぞれ最大6倍および4倍の削減、ならびにレイテンシ改善を示しました。