PLAF:効率的な3Dシーン理解のための、ピクセル単位の言語アライン特徴抽出
arXiv cs.CV / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、開放語彙の3Dシーン理解に向けて、空間的な精密さとともに言語アラインを実現する「PLAF」というピクセル単位の言語アライン特徴抽出フレームワークを提案している。
- ピクセル単位の密なセマンティクスを3Dへ伝播する際に生じがちな冗長性の問題に対処し、大規模シーンでのストレージやクエリ効率を低下させる要因を減らすことを狙っている。
- PLAFは、開放語彙としての表現力を損なわずに2D上で密で正確な意味アラインメントを行い、その表現を拡張して2D/3Dの両領域で効率的なセマンティックな保存と検索を可能にする。
- 実験結果として、PLAFが正確かつ効率的な開放語彙3Dシーン理解のためのセマンティック基盤を提供することが示され、コードはGitHubで公開されている。



