LOD-Net：ローカリティ認識型のマルチスケールTransformerによる3D物体検出

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、点群データの疎性と大域的構造の欠如に起因する難しさに対処する、ローカリティ認識型の3D物体検出手法LOD-Netを提案する。
3DETRアーキテクチャにMulti-Scale Attention（MSA）機構を統合し、高解像度の特徴マップを生成するアップサンプリング操作を導入する。
局所の幾何情報と大域コンテキストの双方をより適切に捉えることで、小さな物体や意味的に関連する物体の検出精度向上を狙っている。
ScanNetv2での実験では、ベースラインに対してmAP@25がほぼ+1%、mAP@50が+4.78%と改善が示された。
MSAを軽量な3DETR-mに適用すると改善が限定的であり、軽量モデルではアップサンプリング戦略を調整することが重要だと分析している。

要旨: 点群データにおける3D物体検出は、入力に内在する疎性とグローバル構造の欠如により、依然として困難な課題です。本研究では、局所的な幾何情報とグローバルな文脈の両方をより適切に捉えるために、3DETRアーキテクチャに統合された新しいマルチスケール・アテンション（MSA）機構を提案します。提案手法では、解像度の高い特徴マップを生成するアップサンプリング操作を導入し、ネットワークがより小さく、かつ意味的に関連する物体をより良く検出できるようにします。ScanNetv2データセットで実施した実験により、我々の3DETR + MSAモデルは検出性能を改善し、ベースラインに対してmAP@25で約1%、mAP@50で4.78%の向上を達成することが示されます。MSAを3DETR-m変種に適用した場合には限定的な改善しか見られませんが、分析の結果、軽量モデルに対してはアップサンプリング戦略を適応させることの重要性が明らかになりました。これらの結果は、3Dシーン理解を強化するうえで、階層的特徴抽出とアテンション機構の組み合わせが有効であることを示しています。