要旨: 3Dテキストのクロスモーダル対応(アライメント)において近年進展があるにもかかわらず、既存の最先端手法は微細なテキスト意味論と詳細な幾何構造を整合させる点でなお苦戦しており、大規模な3Dデータベースへスケールさせるとアライメント性能が大きく低下します。この制約を克服するために、提案する動的アテンション方策と効率的な検索戦略によって、テキストと3D幾何を整合させるための統一的フレームワークである3DAlign-DAERを導入します。これにより、多様なクロスモーダル検索および分類タスクにおいて微妙な対応関係を捉えます。具体的には、学習時に提案する動的アテンション方策(DAP)は、階層的アテンション融合(HAF)モジュールを用いて、整合を学習可能な微細なトークン対ポイントのアテンションとして表現します。異なるタスクや幾何の階層にわたってこれらのアテンションを最適化するために、DAPはさらに、ハイブリッド報酬信号を介してHAFのアテンション重みを動的に較正するためにモンテカルロ木探索を活用し、テキスト記述とローカルな3D幾何との間の整合を一層強化します。推論時には、3DAlign-DAERは大規模な埋め込み空間において効率的な階層探索を活用するための効率的検索戦略(ERS)を導入し、従来手法(例: KNN)に対して精度と効率の両面で上回ります。さらに、テキスト-3D整合の研究を促進し、3DAlign-DAERを訓練するために、2M件のテキスト-3Dペアを含む大規模データセットAlign3D-2Mを構築し、十分な微細なクロスモーダル注釈を提供します。広範かつ包括的な実験により、多様なベンチマークにおいて3DAlign-DAERが優れた性能を発揮することを示します。コード、モデル、データセットを公開します。コードおよび更新情報は https://github.com/waltstephen/Cost-Effective-Communication で利用できます。
3DAlign-DAER:動的アテンション・ポリシーと効率的リトリーバル戦略によるスケール対応の細粒度3D-テキスト整合
arXiv cs.CV / 2026/4/27
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文では、3Dデータベースを大規模化した際に性能が大きく低下する問題や、微細なテキスト意味と詳細な幾何構造の対応付けが難しいという課題に対処するため、3DAlign-DAERという統合フレームワークを提案します。
- 動的アテンション・ポリシー(DAP)では、Hierarchical Attention Fusion(HAF)モジュールによりトークンから点への細粒度アテンションを学習し、さらにモンテカルロ木探索とハイブリッド報酬でHAFの重みを動的に較正してローカルな3D幾何との対応を強化します。
- 推論段階では、大規模な埋め込み空間に対して階層的探索を行う効率的リトリーバル戦略(ERS)を導入し、KNNのような従来手法よりも精度と効率の両面で優れることを目指します。
- 学習と研究を支えるため、テキスト–3Dペア200万件を含む大規模データセットAlign3D-2Mを構築し、多数のベンチマークでの実験により優れた性能を示します。
- 著者らは、研究の発展を支援するため、コード・モデル・データセットを公開する予定です。




