「骨格からピクセルへ」表現蒸留と予測蒸留による少数ショット精密イベント検出
arXiv cs.CV / 2026/4/28
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文はテニスのような高速スポーツにおけるPrecise Event Spotting(PES)を扱い、モーションブラー、微細な動作の違い、注釈データの不足によりフレーム単位での正確なイベント位置特定が難しい点を問題設定しています。
- 提案手法として、Adaptive Weight Distillation(AWD)という無ラベルデータ上で教師の予測を適応的に再重み付けする予測レベル蒸留と、AMD-FEDというアニーリング付き疑似ラベリングで堅牢な骨格知識を視覚モダリティへ移す表現レベル蒸留の2つを示します。
- どちらの手法も、ラベル付きデータが限られる状況で汎化性能を高めるためにマルチモーダル蒸留を用いており、モダリティ間で有用な情報を移すことを狙いとしています。
- F3Set-Tennis(sub)でk-clipの少数ショット設定を行ったところ、単一モダリティのベースラインや従来のPES手法に対して一貫して優れた性能が得られ、AMD-FEDはFigure Skatingでもk-clip状況で堅牢に機能することが確認されます。
- 結果は、特に骨格から視覚への転移のような表現レベルのマルチモーダル蒸留が、少数ショット精密イベント検出に有効であることを示唆しています。




