SEATrack:シンプルで効率的かつ適応的なマルチモーダル・トラッカー

arXiv cs.CV / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、近年のPEFT手法と比べてモデルサイズを増やしがちなアプローチに対し、トラッキング性能とパラメータ効率のバランスを改善するための、2ストリームのマルチモーダル・トラッカーであるSEATrackを提案する。
  • 性能–効率のトレードオフを生み出す主要因として、モダリティ間のマッチング注意(cross-modal matching attention)の不整合があると論じ、それをAMG-LoRAで対処する。ここでは、Low-Rank Adaptation(LoRA)とAdaptive Mutual Guidance(AMG)を組み合わせることで、モダリティ間の注意を洗練し整合させる。
  • モダリティ間の融合について、SEATrackはローカル融合の代わりに階層型ミクスチャ・オブ・エキスパーツ(HMoE)を用いる。これにより大域的な関係を捉えつつ、計算は効率的に保つ。
  • 実験により、RGB–T、RGB–D、RGB–Eのトラッキング課題において、パラメータ効率の高い微調整という効率目標を維持しながら、最先端手法よりも性能が向上したと報告されており、著者らはコードを公開している。

Abstract

マルチモーダル追跡におけるパラメータ効率の高い微調整(PEFT)は、近年の性能向上が、多くの場合、膨張したパラメータ予算の代償によって達成されており、これは根本的にPEFTの効率性という約束を損なうという、懸念すべき傾向を明らかにしています。本研究では、性能と効率のこのジレンマに対し、補完的な2つの観点から取り組む、Simple, Efficient, and Adaptiveな2ストリーム・マルチモーダル追跡器であるSEATrackを提案します。まず、マッチング応答のためのクロスモーダル整合を優先します。これは、十分に探究されていないものの、トレードオフを打破するために不可欠だと私たちは主張します。具体的には、既存の2ストリーム手法におけるモダリティ固有のバイアスが、相互に矛盾するマッチング注意マップを生成し、その結果、効果的な共同表現学習を妨げていることを観察します。これを緩和するために、AMG-LoRAを提案します。これは、領域適応のための低ランク適応(Low-Rank Adaptation; LoRA)を、注意マップをモダリティ間で動的に洗練し整合させるAdaptive Mutual Guidance(AMG)とシームレスに統合します。次に、従来のローカル融合アプローチから離れ、階層型ミクスチャ・オブ・エキスパーツ(Hierarchical Mixture of Experts; HMoE)を導入することで、効率的なグローバル関係のモデリングを可能にし、クロスモーダル融合において表現力と計算効率のバランスを効果的に取ります。これらの革新により、SEATrackは、RGB-T、RGB-D、RGB-Eの各追跡タスクにおいて、性能と効率の両立という点で、最先端手法に対して顕著な進展を達成します。\href{https://github.com/AutoLab-SAI-SJTU/SEATrack}{\textcolor{cyan}{Code is available}}。