視覚・言語埋め込みのクロスアテンションによるマルチビュー・フュージョン

arXiv cs.CV / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、複数視点から得られる視覚・言語記述子に対してクロスアテンションを行うマルチビュー・トランスフォーマであるCAMFusionを提案し、3Dインスタンスごとの統一的な埋め込みを生成する。
  • 従来の3Dリフティング手法の限界に対処する。具体的には、記述子を逆投影して平均するだけの方法や、単一の視点を経験的に選ぶ方法はいずれも、より弱い3D表現につながりうる。
  • 著者らは、融合の品質を高めるための自己教師ありの信号として、標準的な教師あり損失に加えて「マルチビュー整合性(multiview consistency)」を導入する。
  • CAMFusionは、単純な平均化や単一視点選択といった手法よりも優れていることが報告されており、さらに3Dのセマンティック/インスタンス分類ベンチマークで最先端の性能を達成している。加えて、ドメイン外データセットに対するゼロショット結果でも成果を示す。