広告

FAST3DIS: 3Dインスタンスセグメンテーションのためのフィードフォワード・アンカー付きシーントランスフォーマー

arXiv cs.CV / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来の多くのフィードフォワード3D再構成手法で一般的な「lift-and-cluster(持ち上げてクラスタリングする)」パイプラインを回避する、3Dインスタンスセグメンテーションのためのエンドツーエンド・フィードフォワード・トランスフォーマー手法FAST3DISを提案する。
  • FAST3DISは、学習された3Dアンカー生成器と、アンカーサンプリングのクロスアテンションを用いる3Dアンカー付き・クエリベースのトランスフォーマーにより、オブジェクトクエリを複数視点の特徴マップへ射影し、効率的で視点一貫性のあるインスタンス予測を可能にする。
  • 深度バックボーンからのゼロショットな幾何学的事前知識を保持しつつ、非微分可能なクラスタリングに頼るのではなく、インスタンス固有の意味(セマンティクス)を直接学習するように適応する。
  • さらに、マルチビュー対比学習に基づくデュアルレベル正則化と、クエリ同士の衝突を防ぎ境界精度を高めるための、動的にスケジュールされる空間的重なりペナルティを追加する。
  • 複雑な屋内3Dデータセットでの実験により、クラスタリングベースの最先端手法よりもメモリのスケーラビリティが向上し、推論も高速化しつつ、競争力のあるセグメンテーション精度が示される。

概要: 近年のフィードフォワード型3D再構成モデルは、シーン理解のための強力な幾何学的基盤を提供しますが、それらを3Dインスタンスセグメンテーションへ拡張する際には、典型的にバラバラな「リフト&クラスタ」パラダイムに頼る必要があります。非微分可能なクラスタリングによって密なピクセルごとの埋め込みをグルーピングする手法は、ビュー数に対してスケールしにくく、最終的なセグメンテーション目的から表現学習が切り離されてしまいます。本論文では、3Dインスタンスセグメンテーションのためのフィードフォワード・アンカー付きシーントランスフォーマー(FAST3DIS)を提案します。これは、事後処理としてのクラスタリングを効果的に回避するエンドツーエンド手法です。基盤となる深度バックボーンに基づいて構築した、3Dアンカー付きのクエリベースのトランスフォーマー構造を導入します。これにより、ゼロショットの幾何学的事前知識を保持しつつ、インスタンス固有の意味を効率よく学習できるように適応します。学習された3Dアンカー生成器と、アンカーサンプリングのクロスアテンション機構を組み合わせて、ビュー整合的な3Dインスタンスセグメンテーションを定式化します。3Dオブジェクトクエリを直接マルチビューの特徴マップへ射影することで、文脈を効率的にサンプリングします。さらに、二段階の正則化戦略も導入します。これは、マルチビューのコントラスト学習と、動的にスケジュールされる空間的オーバーラップに対するペナルティを結びつけ、クエリの衝突を明示的に防ぎ、インスタンス境界を正確に保証します。複雑な屋内3Dデータセットでの実験により、本手法が、クラスタリングベースの最先端手法と比べてメモリスケーラビリティと推論速度を大幅に改善しつつ、競争力のあるセグメンテーション精度を達成することを示します。

広告