時系列×複雑な運動モデリング:マルチオブジェクト追跡のための頑健かつ計算効率的なモーション予測器

arXiv cs.CV / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、突然停止や急旋回といった現実の複雑で非線形な動きを扱うための、マルチオブジェクト追跡向けモーション予測フレームワークTCMP(Temporal Convolutional Motion Predictor)を提案している。
  • ますます複雑で計算コストの高い生成モデルに依存する代わりに、目的に合った効率的な設計の方が実用上の性能を上回り得ると主張している。
  • TCMPは、拡張畳み込みを備えた修正版TCN(Temporal Convolutional Network)と回帰ヘッドを組み合わせ、任意の時間的コンテキスト長にわたって有効にモーション予測できるようにしている。
  • 実験では状態-of-the-artの結果が報告され、HOTAは62.3%から63.4%へ、IDF1は63.0%から65.0%へ、AssAは47.2%から49.1%へと、それぞれ従来の最良手法から改善した。
  • さらに、精度向上と同時に大幅な効率性も実現しており、SOTA手法に比べパラメータは0.014倍、FLOPsは0.05倍に抑えられている。

要旨: 複数物体追跡(MOT)は、監視、自動運転、ロボティクスなど、多くの現実世界の応用において重要です。物体の動きを正確に予測することはMOTの基礎ですが、現在の手法は現実世界における非線形で複雑な動き(たとえば急な停止や急な旋回)に対する難しさに苦戦しています。近年の研究はこの問題に取り組むため、より複雑で計算コストの高い生成モデルへと重心が移ってきましたが、それらの実用上の有用性はしばしば制約を受けます。本論文は、そのパラダイムを問い直し、そのような複雑さは不要であるばかりでなく、より効率的で目的に特化した手法によって上回られ得ると主張します。本研究では、拡張畳み込みと回帰ヘッドを備えた修正Temporal Convolutional Network(TCN)を活用する、新しいMOTフレームワークであるTemporal Convolutional Motion Predictor(TCMP)を提案します。この設計により、任意の時間的文脈長にわたって効果的な動き予測を可能にします。実験結果により、提案手法が最先端(state-of-the-art)の性能を達成していることが示され、具体的にはいくつかの主要指標で従来の最良手法を改善しています。HOTA(追跡の総合精度の指標)は62.3%から63.4%に増加し、IDF1(アイデンティティ保持の指標)は63.0%から65.0%に向上し、AssA(関連付け精度の指標)は47.2%から49.1%に改善しました。重要な点として、TCMPは非常に効率的でありながらこの性能を達成しています。SOTA手法と比べてパラメータ数は0.014倍に過ぎず、計算コスト(FLOPs)も0.05倍しか必要としません。これらの結果は、複雑な追跡環境において適応性、精度、効率を保証することで、MOTシステムの発展に向けて本手法が頑健であることを示しています。