広告

知識強化型ビジュアル推論による自動サッカー実況生成に向けて

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、ライブ放送の実運用環境では、匿名的な存在、文脈依存の誤り、統計的洞察の不足といった要因により、エンドツーエンドの自動サッカー実況がしばしばうまく機能しないと主張する。
  • そこで、GameSight と呼ぶ2段階システムを提案し、まず知識強化型ビジュアル推論によって、きめ細かな視覚的・文脈的分析を用いて、言及されたエンティティ(選手/チーム)を整合させる。
  • 次に、GameSight はエンティティ整合済みの実況を改善するために、外部の過去の統計情報を注入し、内部の試合状態を反復的に更新することで、事実性と関連性を高める。
  • 報告された結果では、SN-Caption-test-align データセットにおいて Gemini 2.5-pro と比べて選手の整合精度が 18.5% 向上したほか、セグメント単位の精度、実況の品質、試合レベルでの文脈的関連性においても改善が見られる。
  • 本研究は、このアプローチを、より有益で人間中心のAIスポーツ体験へ向けた一歩として位置付け、評価用のデモページも提供している。

Abstract

サッカー実況解説は、観客のためのサッカー観戦体験を向上させる上で重要な役割を果たします。自動サッカー実況解説の生成に関する先行研究では、通常、匿名のライブテキスト実況を生成するためにエンドツーエンド手法を採用しています。しかし、このように生成された実況解説は、実世界のライブ地上波実況の文脈においては不十分です。なぜなら、匿名の実体(エンティティ)を含み、文脈依存の誤りがあり、さらにゲームイベントに関する統計的洞察が欠けているからです。ギャップを埋めるために、我々はGameSightを提案します。GameSightは、サッカー実況解説生成を知識強化型の視覚推論タスクとして扱うための二段階モデルであり、選手やチームといった実体への正確な参照を伴う、ライブ地上波のような知識に基づいた実況解説を可能にします。GameSightはまず、匿名の実体をきめ細かな視覚および文脈の分析に対応づけるための視覚推論を行います。続いて、外部の過去統計を取り込み、内部のゲーム状態情報を反復的に更新することで、実体に対応づけられた実況解説を知識によって洗練します。その結果、GameSightはGemini 2.5-proと比べてSN-Caption-test-alignデータセット上でプレイヤー対応付けの精度を18.5%向上させます。さらに知識強化を組み合わせることで、GameSightは、セグメント単位の精度と実況解説の品質において、またゲームレベルでの文脈の関連性と構造的な構成においても優れています。我々は、この取り組みがAIスポーツアプリケーションにおける、より有益で魅力的な人間中心の体験への道を切り拓くと考えています。デモページ: https://gamesight2025.github.io/gamesight2025

広告
知識強化型ビジュアル推論による自動サッカー実況生成に向けて | AI Navigate