知識強化型ビジュアル推論による自動サッカー実況生成に向けて
arXiv cs.AI / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、ライブ放送の実運用環境では、匿名的な存在、文脈依存の誤り、統計的洞察の不足といった要因により、エンドツーエンドの自動サッカー実況がしばしばうまく機能しないと主張する。
- そこで、GameSight と呼ぶ2段階システムを提案し、まず知識強化型ビジュアル推論によって、きめ細かな視覚的・文脈的分析を用いて、言及されたエンティティ(選手/チーム)を整合させる。
- 次に、GameSight はエンティティ整合済みの実況を改善するために、外部の過去の統計情報を注入し、内部の試合状態を反復的に更新することで、事実性と関連性を高める。
- 報告された結果では、SN-Caption-test-align データセットにおいて Gemini 2.5-pro と比べて選手の整合精度が 18.5% 向上したほか、セグメント単位の精度、実況の品質、試合レベルでの文脈的関連性においても改善が見られる。
- 本研究は、このアプローチを、より有益で人間中心のAIスポーツ体験へ向けた一歩として位置付け、評価用のデモページも提供している。

