RefereeBench：動画MLLMはマルチスポーツの審判になれるのか

arXiv cs.CL / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、11競技・925本の厳選動画・6,475件のQAペアを用い、マルチモーダルLLMが自動スポーツ審判として機能できるかを評価する、初の大規模ベンチマーク「RefereeBench」を提案する。
評価は、反則の有無、反則・ペナルティの分類、反則・ペナルティの推論、対象（エンティティ）の知覚、時間的根拠付けの5つの中核的な審判能力に焦点を当て、汎用的な動画理解ではなく「ルールに基づく」判断を検証する。
Doubao-Seed-1.8やGemini-3-Proなどの主要モデルは約60%の精度にとどまり、最良のオープンソースであるQwen3-VLでも約47%にしか達しないため、現状では信頼できる審判には程遠いことが示される。
分析では、モデルが出来事や関与するエンティティの検出は得意な一方で、ルール適用と時間的根拠付けが難しく、通常の場面でも反則を過剰に申告する傾向があることが分かる。
著者らは、このベンチマークにより、信頼できるAI支援審判やより広いマルチモーダル意思決定を実現するには、ドメイン知識とマルチモーダル理解をより密に統合した将来のMLLMが必要だと結論づけている。

要旨: マルチモーダル大規模言語モデル（MLLM）は汎用的な動画理解に優れている一方で、専門的でルールに根ざした意思決定を支援する能力は、十分に検討されていません。本論文では、MLLMを自動スポーツ審判として評価するための初の大規模ベンチマークであるRefereeBenchを提案します。11種目にまたがり、925本の厳選動画と6,475件のQAペアを収録したRefereeBenchは、5つの中核的な審判能力――反則の存在、反則とペナルティの分類、反則とペナルティの推論、エンティティ知覚、そして時間的根拠（temporal grounding）――を評価します。このベンチマークは、真正な審判ロジックとマルチモーダルな証拠に根ざした高品質な注釈を保証するため、完全に人手で注釈付けされています。最先端のMLLMに対する広範な評価により、Doubao-Seed-1.8やGemini-3-Proのような最も強力なモデルでさえ、精度はおよそ60%にとどまる一方で、最強のオープンソースモデルであるQwen3-VLは47%にしか到達していないことが示されます。これらの結果は、現在のモデルが信頼できるスポーツ審判に程遠いことを示唆しています。さらに分析すると、モデルはしばしば出来事や関与するエンティティを特定できる一方で、ルールの適用と時間的根拠に苦戦しており、通常のクリップに対しても反則を過剰に呼び出すことが多いことが分かります。本ベンチマークは、今後のMLLMが領域知識とマルチモーダル理解をより適切に統合する必要性を浮き彫りにし、信頼できるAI支援審判と、より広範なマルチモーダル意思決定の発展につながることを示しています。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

RefereeBench：動画MLLMはマルチスポーツの審判になれるのか

要点

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer