動画におけるアクションクラス分類のためのViT：アメリカンフットボール練習動画における危険なタックル動作検出へのアプローチ

arXiv cs.CV / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、アメフト練習動画から危険なタックル動作を早期に検出し、介入や選手の安全性向上につなげることを目的としている。
初回接触を中心に時間的にローカライズし、SATT-3のstrike zone成分でラベル付けした733本の「単一選手×ダミー」タックルクリップからなる大幅拡張データセットを新たに提示している。
Vision Transformer（ViT）ベースの動画解析に、クラス不均衡を考慮した学習手法を組み合わせた結果、交差検証で risky recall 0.67、Risky F1 0.59 を達成した。
既存の小規模ベースライン（risky recall 0.58、Risky F1 0.56）に比べて、より大規模なデータセット上でrisky recallを8%以上改善できたと報告している。
希少だが安全に直結するタッキングパターンを、ViTと不均衡対策により実用的に検出できる可能性を示している。

概要: 接触スポーツにおける危険な行動の早期特定により、適切な介入が可能になり、選手の安全性が向上する。われわれは、アメリカンフットボールの練習動画において危険なタックルを検出する手法を提示し、本タスクのために大幅に拡張されたデータセットを導入する。われわれの研究には、全733本の単独選手—ダミーのタックルクリップが含まれており、それぞれが最初の接触点の周辺に時間的に局在化され、標準化されたAssessment for Tackling Technique（SATT-3）のストライクゾーン要素に基づいてラベル付けされている。これは、178本の注釈付き動画を報告した先行研究を拡張するものである。不均衡を考慮した学習を行うVision Transformerベースのモデルを用いて、交差検証のもとでリスクありリコール0.67、Risky F1 0.59を得た。より小さなサブセットにおける先行のベースライン（リスクありリコール0.58、Risky F1 0.56）と比べて、われわれの手法は、はるかに大規模なデータセットにおいて、リスクありリコールを8ポイント以上改善している。これらの結果は、不均衡クラスの慎重な取り扱いと組み合わせたVision Transformerベースの動画解析により、安全に関わるものの希少なタッキングのパターンを確実に検出でき、コーチ中心の傷害予防ツールに向けた実用的な道筋を提供できることを示している。