まず形、次に意味：屋内再構成のための効率的な幾何学と意味論学習

arXiv cs.CV / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、屋内の3D再構成においてまず幾何（形）を学習し、その後に意味（セマンティクス）を推定する2段階手法としてFSTMを提案している。
RGBと幾何学的手がかりを用いた「幾何ウォームアップ」を、意味の教師なしで行い、幾何が安定した後にセマンティクスのフィールド推定へ進む。
幾何と意味を同時に最適化する標準手法やマルチSDF設計と比べて、FSTMは特殊モジュールや複雑なマルチSDF構成を用いずに、幾何と意味の両方の再構成性能を向上させる。
合成データと実データの屋内ベンチマークで評価し、Replicaでは学習が2.3倍高速、ScanNet++では現実の欠陥に対する頑健性が高く、より多くの物体表面を復元して再現率（recall）も向上することを示した。
著者らは、コードを公開する予定であると告知しており、利用や追加検証の促進が期待できる。

Abstract

ニューラル表面再構成は、屋内3D再構成における標準的な手法になっており、符号付き距離関数（Signed Distance Functions: SDFs）はシーン幾何を表現するのに特に有効であることが示されています。さまざまな応用ではシーンの文脈を詳細に理解する必要があり、それがオブジェクト単位の意味的シグナルの要請につながっています。近年の手法は意味ラベルをうまく統合するものの、多くの場合、マルチSDF学習に由来する学習時間の遅さや限定的なスケーラビリティを引き継いでしまいます。本論文では、二段階のプロセスによって幾何と意味を学習する統一的アプローチであるFSTMを提案します。具体的には、RGB入力と幾何学的手がかりによる幾何のウォームアップを行い、その後で意味フィールドの推定を実施します。意味の教師なしでまず幾何を最適化することで、標準的な同時最適化と比べて大幅な改善が得られることを観察しました。専用モジュールや複雑なマルチSDF設計に頼らず、FSTMは、簡素化された定式化だけで強力な幾何・意味の再構成を達成できることを示します。合成データと実世界の屋内データセットの両方での実験により、本手法がマルチSDFアプローチよりも優れていることが確認されます。Replicaでは2.3倍高速に学習でき、ScanNet++では実世界の不完全性に対する頑健性が向上し、さらにシーン内のより多くのオブジェクトの表面を復元することで想起率（recall）が高くなります。コードは https://remichierchia.github.io/FSTM で公開予定です。