要旨: テニスは最も広く注目されているスポーツの1つであり、専門的な分析、自動コーチング、リアルタイムの解説の強い可能性を秘めた大量の放送映像を生み出します。しかし、オートメーションによるテニス理解は、以下の2つの重要な課題のため十分には開拓されていません:(1)細かな注釈と専門家レベルの解説を備えた大規模ベンチマークの欠如、(2)リアルタイム展開に適した正確でかつ効率的なマルチモーダルシステムの構築の難しさ。これらの課題に対処するために、私たちは TennisVL を導入します。200 試合以上(471.9 時間)と 40,000 件以上のラリーレベルクリップを含む大規模なテニスベンチマークです。既存の解説データセットが記述的なプレー・バイ・プレーのナレーションに焦点を当てるのとは対照的に、TennisVL は戦術的推論、選手の意思決定、試合の流れを捉える専門的な分析的解説を強調します。さらに、TennisExpert を提案します。ビデオセマンティックパーサと、Qwen3-VL-8B に基づくメモリ拡張モデルを統合した、マルチモーダルなテニス理解のフレームワークです。パーサはスコア、ショットの連続、ボールの跳ね方、選手の位置などの主要な試合要素を抽出します。一方、階層的なメモリモジュールは短期および長期の時間的文脈の両方を捉えます。実験の結果、TennisExpert は GPT-5、Gemini、Claude を含む強力な独自ベースラインを一貫して上回り、戦術的文脈と試合の動態を捉える能力の向上を示しました。
TennisExpert: 専門家レベルの分析的スポーツ動画理解を目指して
arXiv cs.CV / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- TennisVL は、200試合超(471.9時間)および40,000本超のラリークリップを特徴とするテニス理解の大規模ベンチマークとして導入され、記述的な解説よりも専門家による分析的解説を重視している。
- TennisExpert は、動画セマンティック・パーサと、Qwen3-VL-8B を基盤としたメモリ拡張モデルを用いて、得点、ショットの連続、ボールの跳ね方、選手の位置といった主要要素を抽出する、マルチモーダルなフレームワークとして提案されている。
- このパーサと階層的メモリモジュールは、短期および長期の時間的文脈を捉え、戦術的推論と試合の勢いをより適切にモデル化する。さらに、本手法は GPT-5、Gemini、Claude といった強力な独自ベースラインを上回る。
- 本研究は、リアルタイムでの展開の可能性と、自動コーチングおよびリアルタイムのスポーツ解説への応用を強調している。