ViTs for Action Classification in Videos: An Approach to Risky Tackle Detection in American Football Practice Videos
arXiv cs.CV / 4/3/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- 研究は、アメフト練習動画から危険なタックル動作を早期に検出し、介入や選手の安全性向上につなげることを目的としている。
- 初回接触を中心に時間的にローカライズし、SATT-3のstrike zone成分でラベル付けした733本の「単一選手×ダミー」タックルクリップからなる大幅拡張データセットを新たに提示している。
- Vision Transformer(ViT)ベースの動画解析に、クラス不均衡を考慮した学習手法を組み合わせた結果、交差検証で risky recall 0.67、Risky F1 0.59 を達成した。
- 既存の小規模ベースライン(risky recall 0.58、Risky F1 0.56)に比べて、より大規模なデータセット上でrisky recallを8%以上改善できたと報告している。
- 希少だが安全に直結するタッキングパターンを、ViTと不均衡対策により実用的に検出できる可能性を示している。
Related Articles

90000 Tech Workers Got Fired This Year and Everyone Is Blaming AI but Thats Not the Whole Story
Dev.to

Microsoft’s $10 Billion Japan Bet Shows the Next AI Battleground Is National Infrastructure
Dev.to

TII Releases Falcon Perception: A 0.6B-Parameter Early-Fusion Transformer for Open-Vocabulary Grounding and Segmentation from Natural Language Prompts
MarkTechPost

The house asked me a question
Dev.to

Precision Clip Selection: How AI Suggests Your In and Out Points
Dev.to