要旨: 2Dビジョンにおける畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマ(ViT)の目覚ましい成功は、これらのアーキテクチャを3D解析という複雑な領域へ拡張するための大規模な研究を促してきました。しかし、根本的な二分法に由来する主要な課題が生じます。すなわち、2D画像の規則的で緻密なグリッドと、点群やメッシュのような3Dデータがもつ不規則で疎な性質との間にあるギャップです。本調査では、このギャップを埋める適応戦略について、包括的なレビューと統一的な分類法(タクソノミー)を提示します。これらを3つの系統に分類します: (1) 3Dデータを2D形式に投影して、市販の既製2Dモデルを活用するデータ中心の手法、(2) 内在的な3Dネットワークを設計するアーキテクチャ中心の手法、(3) 両方のモデリングのパラダイムを相乗的に組み合わせ、巨大な2Dデータセットに由来する豊かな視覚的事前知識と、3Dモデルの明示的な幾何学的推論の両方から恩恵を得るハイブリッド手法です。この枠組みにより、これらの系統間における計算複雑性、大規模事前学習への依存、幾何学的な帰納バイアスの保持といった基礎的なトレードオフを定性的に分析します。重要な未解決課題を議論し、さらに有望な今後の研究方向性として、3D基盤モデルの開発、幾何学データに対する自己教師あり学習(SSL)の進展、多様なモダリティ信号のより深い統合などを概説します。
次元ギャップを埋める:3D解析のための2Dビジョンモデル適応に関する分類法とサーベイ
arXiv cs.CV / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ポイントクラウドやメッシュのような不規則な3Dデータと、密な2Dグリッドとの間にある不一致にもかかわらず、成功した2D CNN/ViT型モデルを3D理解タスクへ適応する方法をサーベイする。
- 2Dから3Dへの適応戦略に関する統一的な分類法を提案し、それをデータ中心(3Dを2Dへ射影する)、アーキテクチャ中心(固有の3Dネットワークを構築する)、ハイブリッド(両者を組み合わせる)に分類する。
- 著者らは、これらの系統にまたがるトレードオフを分析し、計算計算量の複雑さ、大規模プリトレーニングへの依存、そして幾何学的な帰納バイアスがどれだけ保持されるかに焦点を当てる。
- 本サーベイでは未解決の課題を示し、今後の方向性として、3Dファウンデーションモデル、幾何学データ向けの改良された自己教師あり学習、多モーダル信号のより強力な統合などを挙げる。




