Abstract
マルチモーダルのリモートセンシングデータは、意味セグメンテーションに対して補完的な情報を提供しますが、実運用では、センサ故障、取得上の問題、あるいは困難な大気条件により、あるモダリティが利用できない場合があります。既存のマルチモーダル・セグメンテーションモデルは典型的に、入力間で共有表現を学習することで欠損モダリティに対処します。しかし、このアプローチは、モダリティ固有の補完情報を損なうことになり、すべてのモダリティが利用可能な場合に性能が低下するというトレードオフを生み得ます。本論文では、この制約に対して、モダリティ不変情報とモダリティ固有情報の両方を保持するよう設計された、マルチモーダル意味セグメンテーションモデル CBC-SLP により取り組みます。モダリティアラインメントに関する理論的結果に着想を得ており、その結果は「完全に整列したマルチモーダル表現は、下流の予測タスクではサブ最適な性能につながり得る」ことを述べています。そこで本研究では、このアーキテクチャ上の帰納バイアスとして、新しい構造化された潜在投影(structured latent projection)アプローチを提案します。損失項によってこの戦略を強制するのではなく、直接アーキテクチャに組み込みます。具体的には、補完情報を効果的に活用しつつ、ランダムなモダリティドロップアウト下でも頑健性を維持するために、潜在表現を共有成分とモダリティ固有成分に構造化し、ランダムなモダリティ利用可能マスクに応じてそれらをデコーダへ適応的に転送します。3つのマルチモーダル・リモートセンシング画像データセットに対する大規模な実験により、CBC-SLP が、全モダリティ利用時および欠損モダリティ時の両方のシナリオで、一貫して最先端のマルチモーダルモデルを上回ることを示します。さらに、提案戦略が、共有表現では保持されない可能性のある補完情報を回復できることを、実験的に示します。コードは https://github.com/iremulku/Multispectral-Semantic-Segmentation-via-Structured-Latent-Projection-CBC-SLP-. で公開されています。