EgoEsportsQA：エスポーツにおける知覚と推論のためのエゴセントリック・ビデオベンチマーク

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

論文では、高速で情報密度の高いエスポーツ動画環境において、知覚と規則に基づく推論を評価するための新しいエゴセントリック（主観視点）型ビデオ質問応答ベンチマークであるEgoEsportsQAを提案する。
EgoEsportsQAには、スケーラブルな6段階パイプラインを用いてプロの一人称シューティングマッチから厳選した1,745のQAペアが含まれており、質問は認知サブタスクとエスポーツ知識サブタスクの2次元タクソノミーで整理されている。
最先端のVideo-LLMの評価では性能が限定的であり、報告された最高精度でも71.58%にとどまっている。これは戦術的かつきめ細かな推論に対する重大な弱点を示している。
分析の結果、モデルはより深い戦術的推論よりも基礎的な視覚知覚のほうが得意であり、ミクロな操作よりもマクロな進行（プロゲッション）のほうでより良い成績を示すことが分かる。
アブレーションおよび追加調査により、このデータセットは現在のVideo-LLMのアーキテクチャ上の制約を明らかにすると同時に、エスポーツに特化した下流アプリケーションを改善するための指針も提供できることが示唆される。

概要: 動画の大規模言語モデル（Video-LLM）は、ゆっくりしたペースの現実世界の一人称視点動画の理解に優れていますが、高速で情報量の多い仮想環境における能力は十分に調査されていません。既存のベンチマークは日常的な活動に焦点を当てていますが、仮想シーンにおける高速でルールに縛られた推論を評価するための厳密なテストベッドが欠けています。このギャップを埋めるために、私たちは、専門的なeスポーツ知識に基づいて知覚と推論を根拠づける、先駆的な動画質問応答（QA）ベンチマーク「EgoEsportsQA」を導入します。スケーラブルな6段階のパイプラインを通じて、3つの一人称シューティングゲームにまたがるプロの試合から、1,745件の高品質なQAペアを収集しました。これらの質問は、2次元のデカップル（独立）したタクソノミーに構造化されています。認知能力の次元では11のサブタスク（知覚と推論のレベルを含む）、eスポーツ知識の次元では6つのサブタスクです。最先端のVideo-LLMに対する包括的な評価により、現在のモデルはいずれも満足できる性能を達成できていないことが明らかになり、最良のモデルでも71.58%にとどまります。この結果は両軸にまたがる顕著な不足を示しています。モデルは、深い戦術的推論よりも基礎的な視覚知覚でより強い能力を示し、全体的なマクロ進行は微細なマイクロ操作よりもよく把握できています。大規模なアブレーション実験により、現在のVideo-LLMアーキテクチャに内在する弱点が示されます。さらに分析すると、私たちのデータセットは、現実世界と仮想の一人称領域の間にあるつながりを明らかにするだけでなく、下流のeスポーツ応用を最適化するための指針も提供し、それによって多様な一人称環境におけるVideo-LLMの今後の発展を促進することがわかります。