エッジにおける交通監視のための効率的な意味論的画像通信

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、厳しい通信制約下で交通監視の映像を送信するための、エッジ端末からサーバへの2つの意味論的画像通信パイプライン（MMSDおよびSAMR）を提案し、フル解像度のピクセルデータを送らずに伝送する。
MMSDは、画像をコンパクトな意味論的アーティファクト（セグメンテーションマップ、エッジマップ、テキスト）へ分解し、機微なピクセル内容が送信されないようにしたうえで、拡散（diffusion）ベースの生成モデルにより受信側でシーンを再構成する。
SAMRは、標準的なJPEGエンコードの前に意味的に重要でない領域を抑制し、欠落部分を生成的インペインティングで復元することで、品質–圧縮のトレードオフを改善する。
本システムは非対称アーキテクチャを採用し、軽量な意味論的処理をエッジ端末（例：Raspberry Pi 5）で実行し、計算負荷の高い生成的な復元はサーバで行う。
報告された結果では、両手法とも非常に大きな伝送削減（約99%）が示され、SPICのようなベースラインとの比較でも良好であり、標準JPEGおよびSQ-GANに対して圧縮–品質トレードオフで強い性能を示した。

要旨: 多くのビジュアル監視システムは、厳しい通信制約のもとで動作しており、フル解像度の画像を送信することは現実的ではなく、また多くの場合不要でもあります。このような状況では、ビジュアルデータは正確な画素忠実度ではなく、物体の存在、空間的な関係、シーンの文脈といった目的のために用いられることが一般的です。本論文では、交通監視向けの2つのセマンティックな画像通信パイプライン、MMSD と SAMR を提案します。これらは、有意義な視覚情報を保持しつつ送信コストを削減します。MMSD（Multi-Modal Semantic Decomposition：マルチモーダル・セマンティック分解）は、高い圧縮率とデータの機密性を同時に目指すもので、機密性のある画素内容は送信されないためです。元画像を、セマンティック表現である圧縮された表現、すなわちセグメンテーションマップ、エッジマップ、テキストによる記述に置き換え、拡散ベースの生成モデルを用いて受信側でシーンを再構成します。SAMR（Semantic-Aware Masking Reconstruction：セマンティック認識型マスキング再構成）は、強い圧縮を維持しながら、より高い視覚品質を目指します。セマンティックな重要度に基づいて非重要な画像領域を選択的に抑制し、その後に標準のJPEG符号化を行い、欠落した内容を受信側で生成的インペインティングによって復元します。これら2つの設計はいずれも非対称な送信者-受信者アーキテクチャに従い、エッジ側では軽量な処理を行い、計算量の大きい再構成はサーバにオフロードします。Raspberry Pi~5 上で、エッジ側の処理時間は MMSD が約15秒、SAMR が約9秒です。実験結果では、MMSD で平均送信データ削減率 99%、SAMR で 99.1% が示されています。さらに、MMSD は、最近の SPIC ベースラインよりもペイロードサイズが小さい一方で、強いセマンティック整合性を維持します。一方、SAMR は、同等の動作条件において、標準の JPEG および SQ-GAN よりも優れた品質-圧縮のトレードオフを提供します。