要旨: オープンボキャブラリの3Dシーン理解により、ユーザーは自然言語を通じて複雑な3D環境内で新規の物体をセグメントできます。しかし、既存の手法は反復的な最適化と、ガウシアンごとの密な特徴割り当てにより遅く、メモリを多く消費し、過度に複雑であるままです。これに対処するため、我々はLightSplatを提案します。LightSplatは高速でメモリ効率の高い、学習不要(training-free)の枠組みであり、マルチビュー画像から3D表現へコンパクトな2バイトの意味インデックスを注入します。意味インデックスを目立つ領域にのみ割り当て、軽量なインデックス-特徴の対応付けでそれらを管理することで、LightSplatは高コストな特徴の最適化と、保存に関わるオーバーヘッドを解消します。さらに、3D内で幾何学的かつ意味的に関連するマスクを結び付ける単一ステップのクラスタリングにより、意味の一貫性と効率的な推論を保証します。我々は、複雑な屋内-屋外シーンにおいて、LERF-OVS、ScanNet、DL3DV-OVSで提案手法を評価します。その結果、LightSplatは最大50〜400倍の高速化と、メモリを64分の1に抑えることで、最先端の性能を達成し、スケーラブルな言語駆動の3D理解を可能にします。詳細は、プロジェクトページ https://vision3d-lab.github.io/lightsplat/ をご覧ください。
LightSplat:5秒で行う高速かつ省メモリのオープンボキャブラリ3Dシーン理解
arXiv cs.CV / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- LightSplatは、自然言語で未知の物体をセグメントするオープンボキャブラリ3Dシーン理解を「学習なし・軽量」かつ高速に行う手法として提案されています。
- 多視点画像から3D表現へコンパクトな2バイトのセマンティック・インデックスを埋め込み、密な特徴割り当てや反復的な特徴最適化を避けることで速度とメモリ効率を大幅に改善します。
- セマンティックの一貫性を保ちつつ、3D上で幾何学的かつセマンティックに関連するマスクを単一ステップのクラスタリングで結び、推論も効率化しています。
- LERF-OVS、ScanNet、DL3DV-OVSで評価し、最大50〜400倍の速度向上と、メモリ64分の1の削減を達成しつつSOTA性能を示しています。