要旨: オンライン行動検出(OAD)システムには、主に2つの課題があります。1つは計算コストが高いこと、もう1つは背景の動きに対して識別的な時系列ダイナミクスを十分にモデル化できていないことです。光フローを追加すれば強力な運動の手がかりを得られますが、大きな計算オーバーヘッドが発生します。私たちは、RGBモデルへ運動知識を転送するためのOADフローベースの蒸留フレームワークであるCAKEを提案します。さらに、静的な背景ノイズを抑制し、画素の変化に重点を置くためのDynamic Motion Adapter(DMA)を提案し、明示的な計算なしに光フローを効果的に近似します。このフレームワークはまた、時間的背景から有益な運動ダイナミクスを区別するためのFloating Contrastive Learning戦略を統合します。TVSeries、THUMOS'14、Kinetics-400の各データセットで行ったさまざまな実験により、提案モデルの有効性が示されました。同じバックボーンを用いながらSOTAと比較して際立ったmAPを達成します。さらに、私たちのモデルは単一CPUで72 FPSを超えて動作し、計算資源が制約されたシステムに非常に適しています。
CAKE:モーション蒸留と背景に配慮したコントラスト学習によるリアルタイム行動検出
arXiv cs.CV / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、高い計算コストと、背景モーションに対して判別的な時間的ダイナミクスのモデリングが弱いという二つの課題に対処する、リアルタイムなオンライン行動検出(OAD)フレームワークCAKEを提案する。
- 光学フローを明示的に計算する代わりに、CAKEはモーション知識蒸留により、フローのような動きの手がかりをRGBモデルへ転送する。
- 静的な背景ノイズを抑制し、ピクセルの変化を強調するDynamic Motion Adapter(DMA)を提案し、光学フローに伴うオーバーヘッドなしでそれに近い情報を効果的に近似する。
- フレームワークは、有用なモーションの時間的ダイナミクスと、時間的背景信号をより良く分離するために、Floating Contrastive Learningを追加する。
- TVSeries、THUMOS’14、Kinetics-400での実験では、同一のバックボーンのまま従来手法に対して高い平均適合率(mAP)の改善を報告しており、さらに単一CPUで72 FPS超を達成して、リソース制約のある環境でのデプロイを支援する。