COVTrack++:連続動画から相乗的パラダイムによって学習するオープン語彙マルチオブジェクト追跡

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、検出と関連付けを3つのモジュールで共同して改善する相乗的オープン語彙マルチオブジェクト追跡(OVMOT)フレームワークであるCOVTrack++を提案する。具体的には、Multi-Cue Adaptive Fusion(MCF)、Multi-Granularity Hierarchical Aggregation(MGA)、Temporal Confidence Propagation(TCP)の3モジュールである。
  • OVMOTにおける連続的にアノテーションされた学習データの不足に対処するため、著者らはC-TAOという連続アノテーション付きデータセットを構築する。これは、元のTAOに対してアノテーション密度を26倍に増やし、滑らかな運動や中間的なオブジェクト状態を含む。
  • TAOでの実験により、35.4%(検証)および30.5%(テスト)という新規のTETAを含む、最先端の結果が示される。さらに、先行手法に対して新規のAssocAで4.8%、新規のLocAで5.8%の改善が得られた。
  • このアプローチはBDD100Kにおいて強力なゼロショット汎化を示し、学習で扱っていないカテゴリに対しても追跡できることを示唆している。
  • 著者らは、コードとデータセットの両方を公開する予定であると述べており、再現性の向上と「連続オープン語彙追跡」に関するさらなる研究を支えるとしている。

要旨: マルチオブジェクト追跡(MOT)は、従来、いくつかの特定カテゴリに焦点を当ててきたため、多様な物体が存在する現実世界のシナリオへの適用が制限されていました。オープンボキャブラリ・マルチオブジェクト追跡(OVMOT)は、学習中に見たことのない新規物体を含む任意のカテゴリを追跡できるようにすることで、この問題を解決します。しかし、現在の進展は2つの課題によって制約されています。すなわち、学習用に連続的に注釈された動画データが欠けていること、そして検出と関連付けを相乗的に扱うためのカスタマイズされたOVMOTフレームワークが欠けていることです。データ上のボトルネックに対して、我々はC-TAOを構築します。これはOVMOTのための最初の「連続的に注釈された」学習用データセットであり、元のTAOに対して注釈密度を26倍に増やし、滑らかな運動ダイナミクスと中間的な物体状態を捉えます。フレームワーク上のボトルネックに対しては、検出と関連付けの間で双方向の相互関係(bidirectional reciprocal mechanism)を、3つのモジュールによって実現する相乗的フレームワークCOVTrack++を提案します。すなわち、(1) マルチキュー適応融合(MCF):関連付け特徴の学習のために、外観・運動・意味(セマンティクス)の手がかりを動的にバランスさせます;(2) マルチグラニュラリティ階層集約(MGA):高密度な検出における階層的な空間関係を活用します。可視の子ノード(例:物体の部品)が、遮蔽された親物体(例:全身)を関連付け特徴の強化のために助けます;(3) 時間的信頼度伝播(TCP):高い信頼度で追跡された物体を用いて、フレームをまたいで低い信頼度の候補をブーストし、ちらつく検出を回復して軌跡を安定化させます。TAOに関する大規模な実験により、最先端の性能が示されます。新規TETAは検証セットで35.4%、テストセットで30.5%を達成し、先行手法に比べて新規AssocAを4.8%向上、新規LocAを5.8%向上させます。また、BDD100Kにおける強力なゼロショット汎化も示します。コードとデータセットは公開される予定です。