FreqTrack:RGB-イベント物体追跡のための周波数学習ベース ビジョントランスフォーマー

arXiv cs.CV / 2026/4/17

📰 ニュースModels & Research

要点

  • 従来のRGBのみのビジュアル追跡は複雑で動的なシーンで性能が頭打ちになりやすく、イベントセンサー導入で改善の余地はあるものの、多くのRGB-イベント融合手法はイベントデータの時間応答や高周波特性を十分に活用できていない。
  • 本論文では、周波数領域で変換してモダリティ間の相補的な相関を作ることで、より頑健な特徴融合を可能にする周波数認識型のRGB-イベント追跡フレームワーク「FreqTrack」を提案する。
  • Spectral Enhancement Transformer(SET)層として、多ヘッドのダイナミック・フーリエ・フィルタリングを用い、周波数領域の特徴を状況に応じて強調・選択する仕組みを導入する。
  • Wavelet Edge Refinement(WER)モジュールでは、学習可能なウェーブレット変換によりイベントデータから多尺度のエッジ構造を明示的に抽出し、高速・低照度条件でのモデリング能力を高める。
  • COESOTおよびFE108での実験では競争力のある結果が得られ、COESOTベンチマークで精度76.6%の首位を達成し、RGBE追跡における周波数領域モデリングの有効性を裏付けている。

Abstract

既存の単一モーダルRGBトラッカーは、複雑で動的なシーンにおいて性能のボトルネックに直面することが多い一方で、イベントセンサーの導入はトラッキング能力を高める新たな可能性をもたらします。しかし、現在のRGB-イベント融合手法の大半は、主として畳み込み、Transformer、またはMambaアーキテクチャを用いて空間領域で設計されており、イベントデータの独自の時間応答特性や高周波特性を十分に活用できていません。そこで本研究では、周波数領域への変換によってモダリティ間の補完的な相関を確立し、より頑健な特徴融合を実現する周波数を意識したRGBEトラッキングフレームワークFreqTrackを提案します。さらに、多頭の動的フーリエフィルタリングを取り入れたスペクトラル強調Transformer(SET)層を設計し、周波数領域の特徴を適応的に強調および選択できるようにします。加えて、学習可能なウェーブレット変換を活用して、イベントデータからマルチスケールのエッジ構造を明示的に抽出するウェーブレット・エッジ精緻化(WER)モジュールも開発します。これにより、高速かつ低照度の状況におけるモデリング能力を効果的に向上させます。COESOTおよびFE108データセットに対する大規模な実験の結果、FreqTrackは非常に競争力の高い性能を達成し、とりわけCOESOTベンチマークで76.6\%という先行精度を獲得することで、RGBEトラッキングにおける周波数領域モデリングの有効性が検証されました。