FUS3DMaps：ボクセル層とインスタンス層の3D融合によるスケーラブルで高精度なオープンボキャブラリ意味マッピング

arXiv cs.RO / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

FUS3DMapsは、事前にクラス集合を用意せずに、ロボットが未見の概念を空間的に根拠付け（空間配置）できるオープンボキャブラリ意味マッピングのための新しい手法です。
既存のようにインスタンスレベル融合、または高密度のパッチ埋め込み融合のどちらか一方に依存せず、共有ボクセルマップ内で「インスタンス層」と「密（dense）層」を同時に維持し、クロスレイヤー融合によって統合します。
提案するセマンティックなクロスレイヤー融合により、両層の意味の品質が向上しつつ、さらに密層処理とクロスレイヤー融合を空間的スライディングウィンドウに制限することで、スケーラブルで高精度なインスタンスレベル地図を実現します。
既存の3D意味セグメンテーションのベンチマークおよび大規模なマルチストーリー環境での実験により、FUS3DMapsが建物スケールで高いオープンボキャブラリ性能を達成することが示されています。
著者らは、追加資料とコードをプロジェクトサイトで公開予定です。

要旨: オープン・ボキャブラリ意味マッピングにより、ロボットは事前に定義されたクラス集合を必要とせずに、これまで見たことのない概念を空間的に基底付けできます。現在の学習なし（training-free）手法は一般に、意味埋め込みのマルチビュー融合を用いて3Dマップを構築します。具体的には、(1) 視点をセグメント化し、セグメントの画像切り抜き（image crop）をエンコードしてインスタンス単位で行う方法、または (2) 画像パッチ埋め込みを直接、密な意味マップに射影する方法があります。後者のアプローチは、セグメンテーションや2Dから3Dへのインスタンス対応づけを回避し、切り抜かれていない完全な画像フレームに対して処理を行いますが、既存手法は依然としてスケーラビリティに限界があります。そこで本研究では、共有ボクセルマップ上で、密な層とインスタンス層の両方のオープン・ボキャブラリ・レイヤーをオンラインで同時に維持する、二層構造の意味マッピング手法FUS3DMapsを提案します。この設計により、層埋め込みに対するさらなるボクセルレベルの意味融合が可能となり、両方の意味マッピング手法の補完的な強みを組み合わせられます。提案する意味のクロス層（cross-layer）融合は、インスタンス層と密な層の双方の品質を向上させることが分かりました。さらに、密な層とクロス層融合を空間的スライディングウィンドウに制限することで、スケーラブルで高精度なインスタンスレベルのマップも実現できます。確立された3D意味セグメンテーションのベンチマーク、および大規模シーンの選定に対する実験により、FUS3DMapsは複数階建ての建物規模において、正確なオープン・ボキャブラリ意味マッピングを達成することが示されました。追加の資料およびコードは以下で公開予定です: https://githanonymous.github.io/FUS3DMaps/.