3Dセマンティックシーン補完のための疎性認識型ボクセル注意と前景モジュレーション

arXiv cs.CV / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単眼のセマンティック・シーン・コンプリーション(SSC)を対象としている。3Dボクセルの大半は空(>93%)であり、前景およびロングテールのクラスは稀であるため、学習と汎化が困難になっている。
  • 疎性とセマンティック不均衡を統一的に扱う枠組みとしてVoxSAMNetを提案する。DSFRモジュールにより共有されるダミーノードを介して空ボクセルをルーティング/スキップし、占有ボクセルに対しては変形可能注意(deformable attention)を適用する。
  • クラスに関連する表現を改善し、過学習を抑えるために、Foreground Dropout(FD)とText-Guided Image Filter(TGIF)を組み合わせた前景モジュレーション戦略を導入する。
  • SemanticKITTIおよびSSCBench-KITTI-360での実験により、最先端の結果が報告されており、既存ベースラインに対してmIoUが単眼で18.2%、ステレオで20.2%向上している。
  • 著者らは、ボクセルの疎性とセマンティック不均衡を明示的にモデル化することが、効率的かつ正確な3Dシーン補完の鍵であると主張しており、今後のセマンティクス誘導型の疎な3Dアーキテクチャに関する研究を動機づけている。

Abstract

単眼セマンティックシーン補完(SSC)は、単一のRGB画像から完全な3Dセマンティックシーンを復元することを目的としており、自動運転やロボティクスに対して費用対効果の高い解決策を提供します。しかし、ボクセル分布には本質的に偏りがあり、93%以上のボクセルが空である一方、前景クラスは稀であるため、大きな課題となります。既存手法はしばしば、有益でないボクセルに過度に注意を向けてしまい、さらに長い裾を持つ(ロングテール)カテゴリへの汎化性能が低いという問題に悩まされます。これらの問題に対処するために、ボクセルの疎性とセマンティックな不均衡を明示的にモデル化する統一フレームワークであるVoxSAMNet(Voxel Sparsity-Aware Modulation Network)を提案します。提案手法は次の2点を導入します:(1) 空のボクセルを共有ダミーノードによって迂回し、占有されているボクセルを変形可能な注意(deformable attention)で精緻化する、特徴の改良のためのダミーショートカット(Dummy Shortcut for Feature Refinement: DSFR)モジュール;および(2) 過学習を緩和し、クラスに関連する特徴を強化するための、前景モデュレーション戦略としてのForeground Dropout(FD)とテキスト誘導画像フィルタ(Text-Guided Image Filter: TGIF)の組み合わせです。公開ベンチマークであるSemanticKITTIおよびSSCBench-KITTI-360に対する広範な実験により、VoxSAMNetが最先端の性能を達成し、従来の単眼およびステレオのベースラインをそれぞれmIoUスコア18.2%および20.2%で上回ることが示されました。これらの結果は、効率的かつ正確な3Dシーン補完のために、疎性を意識した設計とセマンティクスに導かれた設計の重要性を強調しており、今後の研究に向けた有望な方向性を示しています。