要約: セグメンテーション、検索、関係理解などのタスクにおける統一的な3D知覚と推論の実現は依然として困難であり、既存の手法はオブジェクト中心であるか、オブジェクト間推論の高コストな学習に依存している。私たちは、シーン固有の訓練を必要とせず、階層的な言語蒸留ガウスシーンとその3D意味的シーン・グラフを構築する新しいフレームワークを提示する。ガウス剪定機構がシーンのジオメトリを洗練させ、頑健な多視点言語整合戦略がノイズの多い2D特徴を正確な3Dオブジェクト埋め込みへと集約する。この階層の上に、Vision Language由来のアノテーションとグラフニューラルネットワークベースの関係推論を備えたオープンボキャブラリの3Dシーングラフを構築する。我々のアプローチは、階層的意味論とオブジェクト間/オブジェクト内の関係を共同でモデリングすることにより、効率的でスケーラブルなオープンボキャブラリ3D推論を実現し、オープンボキャブラリセグメンテーション、シーングラフ生成、関係に基づく検索などのタスクで検証されている。 プロジェクトページ: https://dfki-av.github.io/ReLaGS/
ReLaGS: リレーショナル言語ガウススプラッティング
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- ReLaGSは、シーン特有の学習を必要とせず、セグメンテーション、検索、リレーション理解を横断する統一的な3D知覚と推論のフレームワークを導入します。
- 階層的な言語蒸留によるガウスシーンと3Dセマンティックシーングラフを提案し、ジオメトリを洗練させるガウスプルーニングと、ノイズのある2D特徴を堅牢な3Dオブジェクト埋め込みへマッピングする多視点言語アライメントを特徴とします。
- Vision-Language由来の注釈を用いてオープンボキャブラリ対応の3Dシーングラフを構築し、グラフニューラルネットワークベースのリレーショナル推論により、物体間および物体内のリレーションをスケーラブルに扱います。
- オープンボキャブラリ分割、シーングラフ生成、リレーションガイド付き検索で検証されており、提供されたリンクのプロジェクトページを参照してください。




