GRAZE：地に足のついたリファインメントとモーション認識によるゼロショットイベントローカライズ

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

738本のトレーニング動画（タックル練習）に対して、GRAZEはクリップの97.4%で有効な出力を生成し、FPOCを±10フレーム以内で77.5%のクリップにローカライズ（また±20フレーム以内で82.7%）できることを示した。タスク固有の学習なしに、フレーム精度のある生体力学的イベントローカライズが実現可能であることを実証する。

\pm $10フレーム以内でローカライズし、全てのクリップの82.7%において$
\pm$ 20フレーム以内でローカライズしました。これらの結果は、タスク特化の学習なしで、実世界の練習映像におけるフレーム精度の接触開始時刻ローカライゼーションが可能であることを示しています。

AI Business

日経XTECH

日経XTECH

Tech.eu

Dev.to