要旨: 視覚言語モデル(VLM)は、マルチモーダルな知覚と推論において強力な能力を示している。しかし、大規模VLMをモバイル端末上に展開することは、その計算量とメモリ要求が大きいため依然として困難である。実用的な代替案として、デバイスとエッジの協調推論(device-edge co-inference)がある。ここでは、モバイル端末上の軽量なドラフトVLMが、推測(speculative)デコーディングを介して、エッジサーバ上のより大きなターゲットVLMと協調する。とはいえ、推測デコーディングをVLMへ直接拡張すると、視覚トークンの計算が過剰であることや通信オーバーヘッドが大きいことに起因して、深刻な非効率に悩まされる。これらの課題に対処するため、本研究ではVLM推論向けの効率的な協調推測デコーディングの枠組みであるCoVSpecを提案する。具体的には、まず、クエリの関連性、トークンの活性度、低ランクの依存関係を共同で考慮することにより、モバイル端末上で冗長な視覚トークンを刈り込み(prune)する、トレーニング不要の視覚トークン削減フレームワークを開発する。さらに、検証頻度とドラフト長の両方を動的に調整する適応的なドラフティング戦略を設計する。加えて、ターゲット側の検証中にドラフト側の利用を改善し、補正(correction)に関連する伝送オーバーヘッドを削減するために、検証と補正を疎結合にした並列分岐メカニズムを導入する。複数のベンチマークにおける実験により、CoVSpecはターゲットのみの推論と比べて最大2.21倍のスループット向上を達成し、タスク精度を損なうことなく、基準手法(baselines)と比較して通信オーバーヘッドを96%以上削減することが示されている。
CoVSpec:投機的デコードによる視覚言語モデルのための効率的なデバイス-エッジ協調推論
arXiv cs.AI / 2026/5/5
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- CoVSpecは、軽量なモバイル側「下書き」VLMと、より大きなエッジ側「目標」VLMの間で投機的デコードを行うことで、視覚言語モデル(VLM)をデバイス-エッジ協調推論で効率よく運用する手法を提案しています。
- 同手法は、VLM特有の視覚トークン計算過多や通信オーバーヘッドといった投機的デコードの非効率を、オンデバイスで冗長な視覚トークンを削減する訓練不要のプルーニングで解決しようとします。
- さらに、検証頻度と下書き長を状況に応じて動的に調整する適応的なドラフト戦略により、推論効率を高めます。
- 併せて、検証と修正を切り離した並列分岐メカニズムを導入し、ターゲット側の検証中に下書き側の活用を改善し、修正に伴う通信負担を減らします。
- 複数のベンチマーク実験では、ターゲットのみの推論に比べ最大2.21倍のスループット向上と、ベースライン比で96%以上の通信オーバーヘッド削減を達成しつつ、精度を損なわないことが示されています。




