PerceptionComp:複雑な知覚中心推論のためのビデオベンチマーク
arXiv cs.CL / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- PerceptionCompは、長期的で知覚中心のビデオ推論を評価するための手動注釈付きベンチマークで、単一の瞬間では答えられず、複数時点の視覚証拠と論理的制約が必要になります。
- ベンチマークは279本の多様なドメインの動画からなり、計1,114問を対象に、物体・属性・関係・位置・行動・出来事など幅広い知覚サブタスクと、意味認識・対応付け・時間推論・空間推論を要求します。
- 人間評価では、既存ベンチマークより大幅に推論(テスト時の思考)と複数の知覚ステップが必要で、再視聴を禁止すると精度が近い値(18.97%)まで落ちることが示されています。
- 既存のSOTA MLLMでもPerceptionCompでの性能は低く、Gemini-3-Flashが5択で45.96%、オープンソースは40%未満にとどまっており、知覚中心の長期ビデオ推論が依然ボトルネックであることを示唆しています。



