要旨: 色と深度のマルチモダリティ、すなわちRGB-Dは、屋内シーン認識に関する近年の研究において非常に重要である。この種のデータ表現では、深度マップがシーンの3D構造や、物体間の幾何学的関係を記述できる。先行研究では、両モダリティの局所特徴が認識精度の向上に重要であることが示されてきた。しかし、この分野においては、これらの主要な局所特徴に対する適応的な選択と効果的な活用の問題が未解決のままである。本論文では、上記の問題を解決するために、適応的なノード選択メカニズムを備えた動的グラフモデルを提案する。このモデルでは、物体とシーンの関係をモデル化するために動的グラフを構築し、グラフモデリングのためにRGBおよび深度の両モダリティから重要な局所特徴を取り出す適応的ノード選択の手法を提案する。その後、これらのノードを3つの異なるレベルによってグループ化し、物体間の近い/遠い関係を表す。さらに、注意重みに基づいてグラフモデルを動的に更新する。最後に、更新され最適化されたRGBおよび深度モダリティの特徴を統合し、屋内シーン認識を行う。SUN RGB-DおよびNYU Depth v2を含む公開データセットで実験を行う。広範な結果により、我々の方法は最先端手法と比較して優れた性能を示し、提案手法がRGBおよび深度の両モダリティから重要な局所特徴を効果的に活用できることが示される。
RGB-D に基づく屋内シーン認識のための適応的特徴選択を備えたダイナミックグラフニューラルネットワーク
arXiv cs.CV / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、RGB(カラー)と深度の両モダリティから、情報量の多いノードを適応的に選択することで実現する、RGB-D 屋内シーン認識のためのダイナミックグラフニューラルネットワークを提案する。
- 屋内の対象/シーン間の関係をモデル化するためにダイナミックグラフを構築し、近距離から遠距離までの関係構造を捉えるためにノードを3つのレベルにグルーピングする。
- グラフは注意重み(attention weights)により動的に更新され、重要なノード/関係が何であるかを反映しながら特徴の伝播と最適化を可能にする。
- 最後に、更新された RGB と深度の特徴を融合して認識を行い、SUN RGB-D と NYU Depth v2 において、従来の最先端手法に比べて性能が向上したことを報告する。
- 本研究は、グラフモデリングによってマルチモーダル RGB-D 入力から重要な局所特徴を適応的に活用するという、従来未解決だった課題に取り組む。

