PerceptionComp：複雑な知覚中心推論のためのビデオベンチマーク

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

PerceptionCompは、長期的で知覚中心のビデオ推論を評価するための手動注釈付きベンチマークで、単一の瞬間では答えられず、複数時点の視覚証拠と論理的制約が必要になります。
ベンチマークは279本の多様なドメインの動画からなり、計1,114問を対象に、物体・属性・関係・位置・行動・出来事など幅広い知覚サブタスクと、意味認識・対応付け・時間推論・空間推論を要求します。
人間評価では、既存ベンチマークより大幅に推論（テスト時の思考）と複数の知覚ステップが必要で、再視聴を禁止すると精度が近い値（18.97%）まで落ちることが示されています。
既存のSOTA MLLMでもPerceptionCompでの性能は低く、Gemini-3-Flashが5択で45.96%、オープンソースは40%未満にとどまっており、知覚中心の長期ビデオ推論が依然ボトルネックであることを示唆しています。

Abstract

複雑で長期的（long-horizon）かつ知覚中心の動画推論のための、手動でアノテーションされたベンチマークである PerceptionComp を提案します。PerceptionComp は、どの単一の瞬間もそれだけでは十分ではないように設計されています。各問いに答えるには、時間的に分離された複数の視覚的証拠と、論理積（conjunctive）および順次（sequential）ロジックのもとでの構成（compositional）制約が必要です。対象となる知覚サブタスクには、物体、属性、関係、位置、行為、出来事などが含まれます。また、意味認識、視覚的対応付け、時間的推論、空間的推論といった技能も必要とします。このベンチマークには、多様な領域から選ばれた 279 本の動画に対して、非常に複雑な問題 1,114 問が含まれています。領域には、市街地の散策ツアー、屋内のヴィラツアー、ビデオゲーム、そして過酷な屋外スポーツが含まれ、アノテーションは 100% 手動です。人手による調査では、PerceptionComp は評価時に大きな思考（test-time thinking）と、知覚ステップの反復を要することが示されています。参加者は先行ベンチマークよりも大幅に時間がかかり、再視聴が許可されない場合、精度はほぼ偶然の水準（18.97%）まで低下します。最先端の MLLM も、既存のベンチマークに比べて PerceptionComp では大幅に劣る結果を示しています。評価における最良モデルである Gemini-3-Flash は、5択設定で 45.96% の精度にとどまる一方、オープンソースのモデルは 40% 未満のままです。これらの結果は、知覚中心の長期的動画推論が依然として大きなボトルネックであることを示唆しており、PerceptionComp が知覚推論の進展を後押しすることを期待しています。