FusionBERT：クロスアテンションによる視覚融合とノーマルに配慮した3Dエンコーダを用いたマルチビュー画像-3D検索

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、単一ビューの画像–3D整合を超えてクロスモーダルなマッチングを改善するための、マルチビュー画像から3Dへの検索フレームワーク「FusionBERT」を提案する。
FusionBERTには、複数の画像ビュー間で補完的な情報を適応的に融合し、より頑健な融合視覚特徴を生成する、クロスアテンションに基づくマルチビュー視覚アグリゲータが含まれる。
また、点の法線（ノーマル）と3D位置を同時にモデル化する「ノーマルに配慮した3Dエンコーダ」を提案し、特にテクスチャのない、または色が劣化した3Dモデルに対して幾何学的表現を強化する。
画像–3D検索に関する実験では、単一ビューおよびマルチビューの両設定において、最先端のマルチモーダル大規模モデルよりも大幅に高い精度が示され、FusionBERTが強力な新たなベースラインとなることを位置づける。

概要: 本研究では、画像-3Dマルチモーダル検索のための新しいマルチビュー視覚融合フレームワークであるFusionBERTを提案する。既存の画像-3D表現学習手法は主に、単一の対象物画像とその3Dモデルの特徴整合に焦点を当てており、対象物が通常複数の視点から観察・撮影される現実的な状況での適用性が制限されている。マルチビュー観測は自然に補完的な幾何学的手がかりと外観の手がかりを提供するが、既存のマルチモーダル大規模モデルでは、より良いクロスモーダル検索のためにそのようなマルチビュー視覚情報を効果的に融合する方法を十分に検討していない。この制約に対処するため、対象物のマルチビュー画像からの特徴を適応的に統合するために、クロスアテンションに基づくマルチビュー視覚アグリゲータを独創的に利用するマルチビュー画像-3D検索フレームワークであるFusionBERTを導入する。提案するマルチビュー視覚エンコーダは、ビュー間の補完的な関係を融合し、複数のビューにまたがって有益な視覚的手がかりを選択的に強調することで、より頑健に融合された視覚特徴を得て、3Dモデルのマッチングを向上させる。さらにFusionBERTは、点の法線と3D位置を共同で符号化することで、質感のない（textureless）または色が劣化した3Dモデルの3D幾何学的特徴をさらに強化できる、法線を考慮した3Dモデルエンコーダを提案する。大規模な画像-3D検索実験の結果、FusionBERTは単一ビューおよびマルチビューの両設定において、SOTAのマルチモーダル大規模モデルよりも大幅に高い検索精度を達成し、マルチビュー・マルチモーダル検索に対する強力なベースラインを確立した。