GRAZE:地に足のついたリファインメントとモーション認識によるゼロショットイベントローカライズ

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 738本のトレーニング動画(タックル練習)に対して、GRAZEはクリップの97.4%で有効な出力を生成し、FPOCを±10フレーム以内で77.5%のクリップにローカライズ(また±20フレーム以内で82.7%)できることを示した。タスク固有の学習なしに、フレーム精度のある生体力学的イベントローカライズが実現可能であることを実証する。

\pm 10フレーム以内でローカライズし、全てのクリップの82.7%において
\pm$ 20フレーム以内でローカライズしました。これらの結果は、タスク特化の学習なしで、実世界の練習映像におけるフレーム精度の接触開始時刻ローカライゼーションが可能であることを示しています。