RSGMamba：マルチモーダル意味セグメンテーションのための信頼性を意識した自己ゲート状態空間モデル

arXiv cs.CV / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、RSGMambaという、マルチモーダル意味セグメンテーションのための「信頼性を意識した自己ゲート状態空間モデル」を提案する。ここでは、クロスモーダル融合を、すべての入力が同等に信頼できるという前提ではなく、「モダリティの信頼性」の問題として扱う。
中核となる構成要素である「信頼性を意識した自己ゲートMambaブロック（RSGMB）」は、各モダリティの信頼性を明示的にモデル化し、自己ゲーティングによってモダリティ間で交換される情報量を動的に制御する。
微細な空間的詳細を向上させるために、RSGMBのグローバルなモデリングを補完する軽量な「ローカル・クロスゲート変調（LCGM）」モジュールを追加する。
実験では、RGB-DおよびRGB-Tのベンチマークで最先端の結果が報告されており、NYUDepth V2とSUN-RGBDで58.8%/54.0% mIoUを達成する。さらに、48.6MパラメータでMFNetおよびPST900において最大+1.6%の改善が得られる。
全体として、このアプローチは、信頼性を意識した特徴選択と情報的な集約によって、ノイズのある・位置が不一致の・不完全な補助モダリティによる劣化を軽減できることを示している。

要旨: マルチモーダル意味セグメンテーションは、複数のセンシングモダリティ（例：RGB、深度、サーマル）から得られる補完的情報を活用することで、シーン理解を強化するための強力なパラダイムとして登場してきた。しかし、既存のクロスモーダル融合手法の多くは、すべてのモダリティが等しく信頼できることを暗黙に仮定していることが多く、その結果、補助モダリティがノイズを含んでいたり、位置合わせが不正確だったり、あるいは欠損していたりすると、特徴が劣化する可能性がある。本論文では、モダリティの信頼性という観点からクロスモーダル融合を見直し、新たなフレームワークである Reliability-aware Self-Gated State Space Model（RSGMamba）を提案する。我々の手法の中核は、モダリティの信頼性を明示的にモデル化し、自身のゲーティング機構によってクロスモーダル相互作用を動的に制御する Reliability-aware Self-Gated Mamba Block（RSGMB）である。モダリティ間で無差別に情報を交換する従来の融合戦略とは異なり、RSGMBは信頼性を考慮した特徴選択を可能にし、情報量の多い特徴の集約を強化する。さらに、局所的な細かな空間詳細を洗練させるための軽量な Local Cross-Gated Modulation（LCGM）を組み込み、RSGMBのグローバルなモデリング能力を補完する。大規模な実験の結果、RSGMambaはRGB-DおよびRGB-Tの意味セグメンテーション・ベンチマークの両方で最先端の性能を達成し、NYUDepth V2およびSUN-RGBDでそれぞれ58.8% / 54.0% mIoU（従来の最良結果に対して +0.4% / +0.7%）、MFNetおよびPST900で61.1% / 88.9% mIoU（最大 +1.6%）を示した。加えて、48.6Mのパラメータのみで達成しており、提案手法の有効性と優位性を裏付けている。