概要: 3Dインスタンス分割手法は通常、高品質の点群やポーズ付きRGB-Dスキャンに依存し、複雑な多段処理パイプラインを必要とし、再構成ノイズに非常に敏感である。
一方、最近のフィードフォワード型トランスフォーマはマルチビュー3D再構築に革新をもたらしているが、それらは高レベルの意味理解からは切り離されたままである。
本研究では SegVGGT を提案します。SegVGGT は、マルチビュー RGB 画像から直接、フィードフォワード型の3D再構築とインスタンス分割を同時に実行する、統合されたエンドツーエンドのフレームワークです。
多段階の幾何特徴と相互作用するオブジェクトクエリを導入することにより、私たちの手法はインスタンス識別を視覚幾何学に基づくトランスフォーマーへ深く統合します。
グローバル画像トークンの膨大な数が原因となる深刻なアテンション分散問題に対処するため、フレームレベルのアテンション分布整合化(FADA)戦略を提案します。
FADA は、トレーニング時にオブジェクトクエリがインスタンス関連のフレームに注意を払うように明示的に導き、追加の推論オーバーヘッドを伴わずに構造化された監督を提供します。
豊富な実験により、SegVGGT は ScanNetv2 および ScanNet200 において最先端の性能を達成し、最近のジョイントモデルや RGB-D ベースのアプローチを上回るとともに、ScanNet++ においても強い一般化能力を示します。
返却形式: {"translated": "翻訳されたHTML"}




