マルチモーダル追跡のための Sparse-Dense Mixture of Experts アダプター

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

要点

  • 本論文は、統一モデルの下でクロスモーダルの異質性を解決するため、マルチモーダル追跡におけるパラメータ効率のファインチューニングを実現する Sparse-Dense Mixture of Experts Adapter (SDMoEA) を提案する。
  • モダリティ特異情報を捉える疎な MoE と、クロスモーダル情報のための共有 MoE を組み合わせた SDMoE モジュールを採用している。
  • グラム行列を用いた Gram-based Semantic Alignment Hypergraph Fusion (GSAHF) モジュールを提案し、モダリティ間の意味的整合を実現し高次融合を可能にする。
  • LasHeR、RGBT234、VTUAV、VisEvent、COESOT、DepthTrack、VOT-RGBD2022 などのベンチマークでの実験は、他の PEFT アプローチと比較して優れた性能を示した。

要旨: パラメータ効率の高い微調整(PEFT)手法は、プロンプトやアダプターなど、マルチモーダル追跡に広く用いられている。これは、全モデルの微調整に伴う時間の非効率性、高いリソース消費、パラメータ保存負担、そして壊滅的忘却といった問題を緩和するからである。しかし、モーダル間の異質性のため、既存のPEFTベースの手法の多くは、共有パラメータを持つ統一的なフレームワーク内でマルチモーダル特徴を効果的に表現することに苦労しています。この問題に対処するために、統一モデル構造の下で、PEFTベースのマルチモーダル追跡のための新しい Sparse-Dense Mixture of Experts Adapter (SDMoEA) フレームワークを提案します。具体的には、SDMoE モジュールをマルチモーダルアダプターとして設計し、モダリティ特有の情報と共有情報を効率的にモデリングします。SDMoE は、疎な MoE と密な共有 MoE で構成される。前者はモダリティ特有の情報を、後者はモダリティ間で共有される情報をモデル化する。さらに、多段階・多レベルのマルチモーダル融合における高次相関のモデリングの限界を克服するために、Gram 行列に基づく意味的整合性ハイパーグラフ融合(GSAHF)モジュールを導入します。まず、クロスモーダルの意味的整合のためにGram行列を用い、構築されるハイパーグラフがモダリティ間の意味的類似性と高次の依存関係を正確に反映するようにします。整列された特徴はハイパーグラフ構造に組み込まれ、高次の関係をモデル化する能力を活用して、多段階・多レベルのマルチモーダル情報の深層融合を実現します。広範な実験により、提案手法が他のPEFT手法と比較して優れた性能を多くのマルチモーダル追跡ベンチマークで達成することが示されました。対象ベンチマークには LasHeR、RGBT234、VTUAV、VisEvent、COESOT、DepthTrack、および VOT-RGBD2022 が含まれます。