構造化潜在射影による欠損または全モダリティ環境での堅牢なマルチスペクトル意味領域分割

arXiv cs.CV / 2026/4/20

📰 ニュースModels & Research

要点

  • 本論文は、センサー故障や取得・大気条件などで一部モダリティが欠けても堅牢に動作するマルチモーダル意味領域分割モデル「CBC-SLP」を提案する。
  • 既存手法が共有表現に依存して性能を確保する一方で、全モダリティが揃っている場合に補完的情報が損なわれ得る点に対し、CBC-SLPはモダリティ不変情報とモダリティ固有情報の両方を保持する。
  • 構造化潜在射影に基づき、共有潜在成分とモダリティ固有潜在成分を、ランダムなモダリティ利用可能マスクに応じてデコーダへ適応的に転送する。
  • 3つのマルチモーダルリモートセンシング画像データセットでの実験により、CBC-SLPが全モダリティ時および欠損モダリティ時の両方で最先端手法を一貫して上回ることを示す。
  • 共有表現に押し込めた場合に失われがちな補完情報を、本手法が回復できることも実証的に示される。

Abstract

マルチモーダルのリモートセンシングデータは、意味セグメンテーションに対して補完的な情報を提供しますが、実運用では、センサ故障、取得上の問題、あるいは困難な大気条件により、あるモダリティが利用できない場合があります。既存のマルチモーダル・セグメンテーションモデルは典型的に、入力間で共有表現を学習することで欠損モダリティに対処します。しかし、このアプローチは、モダリティ固有の補完情報を損なうことになり、すべてのモダリティが利用可能な場合に性能が低下するというトレードオフを生み得ます。本論文では、この制約に対して、モダリティ不変情報とモダリティ固有情報の両方を保持するよう設計された、マルチモーダル意味セグメンテーションモデル CBC-SLP により取り組みます。モダリティアラインメントに関する理論的結果に着想を得ており、その結果は「完全に整列したマルチモーダル表現は、下流の予測タスクではサブ最適な性能につながり得る」ことを述べています。そこで本研究では、このアーキテクチャ上の帰納バイアスとして、新しい構造化された潜在投影(structured latent projection)アプローチを提案します。損失項によってこの戦略を強制するのではなく、直接アーキテクチャに組み込みます。具体的には、補完情報を効果的に活用しつつ、ランダムなモダリティドロップアウト下でも頑健性を維持するために、潜在表現を共有成分とモダリティ固有成分に構造化し、ランダムなモダリティ利用可能マスクに応じてそれらをデコーダへ適応的に転送します。3つのマルチモーダル・リモートセンシング画像データセットに対する大規模な実験により、CBC-SLP が、全モダリティ利用時および欠損モダリティ時の両方のシナリオで、一貫して最先端のマルチモーダルモデルを上回ることを示します。さらに、提案戦略が、共有表現では保持されない可能性のある補完情報を回復できることを、実験的に示します。コードは https://github.com/iremulku/Multispectral-Semantic-Segmentation-via-Structured-Latent-Projection-CBC-SLP-. で公開されています。