Volume Transformer：バニラ・トランスフォーマーを3Dシーン理解に再考する

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、「Volume Transformer（Volt）」として、体積パッチトークンと全体的な自己注意、さらに3D回転位置埋め込み（RoPE）の拡張を用いて3Dシーン理解にバニラのトランスフォーマーエンコーダを適応する手法を提案しています。
一般的な3Dセマンティックセグメンテーションのベンチマークでの実験では、単純な学習では教師データの規模が小さいことが原因でshortcut learningが起きうることが示されます。
これを改善するため、強力な3Dオーグメンテーション、正則化、畳み込み教師モデルからの知識蒸留を組み合わせたデータ効率の高い学習レシピを導入し、最先端と競り合う性能を実現しています。
複数データセットでの共同学習によりスーパービジョンを拡大するとさらに精度が向上し、Voltはドメイン特化の3Dバックボーンよりも「データ規模の増大」の恩恵をより大きく受けることが示されています。
Voltを標準的な3Dインスタンスセグメンテーションのパイプラインにバックボーンとして差し替えた場合も新たに最先端の性能を達成し、シンプルでスケーラブルな汎用3Dバックボーンとして機能し得ることを示唆しています。