要旨: マルチモーダルな視覚オブジェクト追跡は、入力モダリティに基づいていくつかの種類のタスク(例:RGB追跡やRGB+X追跡)に分けられます。既存手法は多くの場合、各モダリティごとに別々のモデルを学習するか、新しいモダリティへの適応のために事前学習済みモデルに依存しており、これが効率性、スケーラビリティ、ユーザビリティを制限しています。そこで本研究では、任意のモダリティに対してエンドツーエンド学習を可能にする統一型マルチモーダル追跡フレームワーク OneTrackerV2 を提案します。マルチモーダル情報を統一空間へ埋め込むための Meta Merger を提案し、柔軟なモダリティ融合と頑健性を可能にします。さらに Dual Mixture-of-Experts(DMoE)も導入します。T-MoE モデルは追跡のために時空間関係をモデル化し、一方で M-MoE はマルチモーダル知識を埋め込みます。これにより、クロスモーダルな依存関係を切り離し、特徴の競合を低減します。共有アーキテクチャ、統一されたパラメータ、および単一のエンドツーエンド学習により、OneTrackerV2 は 5 つの RGB および RGB+X 追跡タスクと 12 のベンチマークにわたって最先端の性能を達成しつつ、高い推論効率を維持します。特に、モデル圧縮後でも OneTrackerV2 は強い性能を保持します。さらに OneTrackerV2 は、モダリティ欠損のシナリオ下でも顕著な頑健性を示します。
デュアル・ミクスチャ・オブ・エキスパーツによる統一型マルチモーダル視覚トラッキング
arXiv cs.CV / 2026/5/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、入力モダリティごとに別モデルを学習することなく「任意の」モダリティを扱えるように設計した、マルチモーダル視覚物体トラッキングの統一型エンドツーエンド基盤であるOneTrackerV2を提案している。
- Meta Mergerにより、マルチモーダル情報を共通の表現空間へ埋め込み、モダリティ融合を柔軟に行えるほか、頑健性を高めるとしている。
- Dual Mixture-of-Experts(DMoE)では、T-MoEがトラッキングのための時空間関係をモデリングし、M-MoEがマルチモーダル知識を埋め込むことで、クロスモーダルな依存の切り離しと特徴衝突の低減を狙っている。
- OneTrackerV2はRGBおよびRGB+Xの5タスクと12のベンチマークにわたり最先端性能を報告しており、高い推論効率も維持するとしている。
- さらに、モデル圧縮後も良好な性能を保ち、推論時にモダリティが欠落する状況でも高い頑健性を示すとしている。



