マルチモーダル追跡のための Sparse-Dense Mixture of Experts アダプター

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

共有:

要点

本論文は、統一モデルの下でクロスモーダルの異質性を解決するため、マルチモーダル追跡におけるパラメータ効率のファインチューニングを実現する Sparse-Dense Mixture of Experts Adapter (SDMoEA) を提案する。
モダリティ特異情報を捉える疎な MoE と、クロスモーダル情報のための共有 MoE を組み合わせた SDMoE モジュールを採用している。
グラム行列を用いた Gram-based Semantic Alignment Hypergraph Fusion (GSAHF) モジュールを提案し、モダリティ間の意味的整合を実現し高次融合を可能にする。
LasHeR、RGBT234、VTUAV、VisEvent、COESOT、DepthTrack、VOT-RGBD2022 などのベンチマークでの実験は、他の PEFT アプローチと比較して優れた性能を示した。

要旨: パラメータ効率の高い微調整（PEFT）手法は、プロンプトやアダプターなど、マルチモーダル追跡に広く用いられている。これは、全モデルの微調整に伴う時間の非効率性、高いリソース消費、パラメータ保存負担、そして壊滅的忘却といった問題を緩和するからである。しかし、モーダル間の異質性のため、既存のPEFTベースの手法の多くは、共有パラメータを持つ統一的なフレームワーク内でマルチモーダル特徴を効果的に表現することに苦労しています。この問題に対処するために、統一モデル構造の下で、PEFTベースのマルチモーダル追跡のための新しい Sparse-Dense Mixture of Experts Adapter (SDMoEA) フレームワークを提案します。具体的には、SDMoE モジュールをマルチモーダルアダプターとして設計し、モダリティ特有の情報と共有情報を効率的にモデリングします。SDMoE は、疎な MoE と密な共有 MoE で構成される。前者はモダリティ特有の情報を、後者はモダリティ間で共有される情報をモデル化する。さらに、多段階・多レベルのマルチモーダル融合における高次相関のモデリングの限界を克服するために、Gram 行列に基づく意味的整合性ハイパーグラフ融合（GSAHF）モジュールを導入します。まず、クロスモーダルの意味的整合のためにGram行列を用い、構築されるハイパーグラフがモダリティ間の意味的類似性と高次の依存関係を正確に反映するようにします。整列された特徴はハイパーグラフ構造に組み込まれ、高次の関係をモデル化する能力を活用して、多段階・多レベルのマルチモーダル情報の深層融合を実現します。広範な実験により、提案手法が他のPEFT手法と比較して優れた性能を多くのマルチモーダル追跡ベンチマークで達成することが示されました。対象ベンチマークには LasHeR、RGBT234、VTUAV、VisEvent、COESOT、DepthTrack、および VOT-RGBD2022 が含まれます。

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

note

【AIニュース】生成AIの「性格」比較【日経新聞】

note

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

note

マルチモーダル追跡のための Sparse-Dense Mixture of Experts アダプター

要点

関連記事

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

【AIニュース】生成AIの「性格」比較【日経新聞】

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer