マルチモーダル追跡のためのプログレッシブ・アダプテーションの学習

arXiv cs.CV / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、RGBの事前学習済みモデルをサーマル(Thermal)、深度(Depth)、イベント(Event)といったモダリティへより良く転移することを目的とした、マルチモーダル追跡のためのプログレッシブ・アダプテーション手法であるPATrackを提案する。
  • 一般的なパラメータ効率の高い微調整(parameter-efficient fine-tuning)の限界に対処するために、3種類の協調型アダプタを追加する。モダリティ依存型(高周波/低周波の分解によりモダリティ内の表現を強化)、モダリティ絡み合い型(クロスアテンションを用いてモダリティ間の特徴の信頼性を向上)、および融合情報の不一致を扱うためのタスクレベルのアダプタ(予測ヘッド向け)である。
  • PATrackは、単一モダリティレベル、モダリティ間相互作用レベル、予測ヘッドレベルにおけるアダプテーションを、1つの統一されたアーキテクチャ内で明示的に制御するよう設計されている。
  • RGB+Thermal、RGB+Depth、RGB+Eventの追跡タスクにまたがる大規模な実験により、既存の最先端手法に対して性能向上が得られたと報告されている。
  • 著者らは再現性およびさらなる実験を支援するために、公的なGitHubリポジトリを通じてコードを提供している。

Abstract

対となるマルチモーダルデータの利用可能性が限られているため、マルチモーダルトラッカーは通常、パラメータ効率の高い微調整モジュールを用いて、事前学習済みRGBモデルを採用することで構築されます。しかし、これらの微調整手法は、RGB事前学習モデルを適用するための高度な適応を見落としており、単一の特定モダリティを調整すること、モーダリティ間の相互作用、そして予測ヘッドの適応に失敗しています。これらの課題に対処するため、マルチモーダルトラッキングのための漸進的適応(Progressive Adaptation for Multi-Modal Tracking: PATrack)を提案します。本革新的アプローチでは、モダリティ依存型、モダリティ絡み(entangled)型、およびタスクレベルのアダプタを組み込み、漸進的戦略によってRGB事前学習ネットワークをマルチモーダルデータへ適応させる際のギャップを効果的に埋めます。具体的には、モダリティ依存型アダプタによってモダリティ固有の情報を強化し、高周波成分と低周波成分を分解することで、各モダリティ内のより頑健な特徴表現を保証します。モダリティ絡み型アダプタでは、モダリティ間で共有される情報に導かれたクロスアテンション操作を実装することで、モダリティ間の相互作用を導入し、モダリティ間を伝達される特徴の信頼性を確保します。さらに、予測ヘッドの強い帰納バイアスが、融合された情報に適応しないことを踏まえ、予測ヘッドに固有のタスクレベルアダプタを導入します。要約すると、提案手法は、モダリティ内、モダリティ間、およびタスクレベルのアダプタを、統一された枠組みに統合します。RGB+Thermal、RGB+Depth、RGB+Eventのトラッキングタスクに関する大規模な実験により、本手法が最先端手法に対して印象的な性能を示すことが確認されています。コードは https://github.com/ouha1998/Learning-Progressive-Adaptation-for-Multi-Modal-Tracking で公開されています。