SF20Kコンペティション2025：まとめと調査結果

arXiv cs.CV / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

SF20Kコンペティション2025（ICCV 2025のSLoMO Workshopと併催）は、アマチュア短編映画のコーパスを用いたオープンエンドの動画QAタスクを通じて、物語レベルの動画理解を推進することを目的としました。
モデルはSF20K-Testベンチマーク（95本の映画、979のQAペア）で評価され、LLM-QA-Eval（GPT-4.1-nanoを用いた自動ジャッジ）により採点されました。
コンペには22チーム・286件の提出があり、メイン（モデルサイズ制限なし）とスペシャル（8Bパラメータ未満）の2トラックで実施されました；優勝チームはそれぞれ65.7%と48.7%の精度を達成しています。
重要な知見として、物語を意識したショット単位の処理が一様なフレームサンプリングより優れ、複数段のパイプラインでは小型モデルでも非常に大規模なエンドツーエンド方式に匹敵または上回ることがあり、字幕の品質が性能を大きく左右することが示されました。
これらの結果は、長編動画QAにおける主なボトルネックが生のモデル能力ではなく情報選択と推論の構造にあること、そして人間レベルの物語理解には依然大きなギャップが残っていることを示唆しています。