VSD-MOT：視覚セマンティック蒸留により誘導される低品質ビデオシーンにおけるエンドツーエンドのマルチオブジェクト追跡

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、画質の劣化に伴い既存のトラッカーが精度を失う低品質ビデオシーンにおいても頑健性を維持することを目的とした、エンドツーエンドのマルチオブジェクト追跡フレームワークVSD-MOTを提案する。
CLIP Image Encoderを用いて全体的な視覚セマンティック情報を捉え、知識蒸留アプローチ（CLIPを教師）を導入することで、直接統合による効率低下を回避する。
提案するDual-Constraint Semantic Distillation（DCSD）は、マルチオブジェクト追跡に適した視覚セマンティクスを抽出できるように生徒モデルを訓練する。
時間経過に伴うビデオ品質の変化に対処するため、Dynamic Semantic Weight Regulation（DSWR）モジュールが、リアルタイムのフレーム品質評価に基づいて意味融合の重み付けを適応的に調整する。
実験結果として、現実の低品質環境において追跡性能が向上しつつ、従来の（より高品質な）シーンでも強い結果を維持できることが報告されている。

日経XTECH

日経XTECH

Reddit r/artificial

Dev.to

Dev.to