進行型セマンティック・コミュニケーションによる効率的なエッジ・クラウド視覚言語モデル

arXiv cs.AI / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、リソース制約のあるエッジ端末でVision-Language Models（VLM）を動かす難しさと、低帯域環境で生画像をクラウドへ送る際に生じるレイテンシ負担を扱っています。
提案は、Meta AutoEncoderを用いて視覚トークンを適応的で段階的に改善可能な表現へ圧縮する「進行型セマンティック・コミュニケーション」フレームワークです。
この方式は、追加の微調整を行わずに汎用の既製VLMと組み合わせられる“プラグアンドプレイ”を目指しています。
セマンティック情報を段階的なレベルで送信できるため、ネットワーク状況の変化に応じて通信コストと意味的忠実度の両立（トレードオフ）を調整できます。
NXP i.MX95（エッジ）とGPUサーバ（クラウド）からなるエンドツーエンド実験では、1Mbpsのアップリンク環境で、フル・エッジやフル・クラウドより大幅にネットワーク遅延を削減しつつ、高圧縮下でも高い意味一貫性を維持したと報告されています。また実装コードは公開予定です。

Abstract

ビジョン・言語モデル（VLM）をエッジデバイスに展開することは、計算量とメモリ要求が大きく、リソース制約のある組み込みプラットフォームの能力を超えるため、依然として困難です。対照的に、推論をクラウドへ完全にオフロードすることは、帯域が制限された環境ではしばしば現実的ではありません。そこでは、生の視覚データの送信が、実質的なレイテンシのオーバーヘッドを引き起こすためです。近年のエッジ—クラウド協調アーキテクチャは、VLMの処理負荷を複数のデバイスに分割しようとするものの、一般に固定サイズの表現を送信することに依存しており、動的なネットワーク状況への適応力に欠け、さらにセマンティックな冗長性を十分に活用できていません。本論文では、エッジ—クラウドVLM推論のための、段階的セマンティック通信フレームワークを提案します。Meta AutoEncoder を用いて視覚トークンを、適応的で段階的に改良可能な表現へと圧縮し、市販のVLMに追加の微調整なしで「そのまま」組み込んで導入できることを可能にします。この設計により、情報レベルの異なる柔軟な伝送が可能となり、通信コストとセマンティック忠実度の間の制御可能なトレードオフを提供します。組み込みの NXP i.MX95 プラットフォームとGPUサーバからなる、帯域制約のあるネットワーク上で通信するエンドツーエンドのエッジ—クラウドシステムを実装します。実験結果から、上り 1 Mbps において、本提案の段階的方式は、フルエッジおよびフルクラウドの解法と比較して、ネットワークレイテンシを大幅に削減できることが示されます。また、高圧縮下でも高いセマンティックな一貫性を維持します。実装コードは、https://github.com/open-ep/ProSemComVLM にて、掲載時に公開予定です。