3Dセマンティックシーン補完のための疎性認識型ボクセル注意と前景モジュレーション
arXiv cs.CV / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、単眼のセマンティック・シーン・コンプリーション(SSC)を対象としている。3Dボクセルの大半は空(>93%)であり、前景およびロングテールのクラスは稀であるため、学習と汎化が困難になっている。
- 疎性とセマンティック不均衡を統一的に扱う枠組みとしてVoxSAMNetを提案する。DSFRモジュールにより共有されるダミーノードを介して空ボクセルをルーティング/スキップし、占有ボクセルに対しては変形可能注意(deformable attention)を適用する。
- クラスに関連する表現を改善し、過学習を抑えるために、Foreground Dropout(FD)とText-Guided Image Filter(TGIF)を組み合わせた前景モジュレーション戦略を導入する。
- SemanticKITTIおよびSSCBench-KITTI-360での実験により、最先端の結果が報告されており、既存ベースラインに対してmIoUが単眼で18.2%、ステレオで20.2%向上している。
- 著者らは、ボクセルの疎性とセマンティック不均衡を明示的にモデル化することが、効率的かつ正確な3Dシーン補完の鍵であると主張しており、今後のセマンティクス誘導型の疎な3Dアーキテクチャに関する研究を動機づけている。




