Time Blindness:なぜビデオ言語モデルは人間のように時間を見られないのか?

arXiv cs.CV / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、現在のビジョン言語モデル(VLM)がフレーム単位の空間的特徴に過度に依存しており、時間的なパターン理解だけを要する状況では失敗しやすいと主張している。
  • SpookyBenchというベンチマークを新たに提案し、ノイズのようなフレーム列の「時間的系列のみに」情報が符号化される設計で、生物信号から秘匿通信までの現象を模している。
  • 人間とモデルの比較では、人間が時間系列を98%以上の精度で認識できる一方で、最先端のVLMは0%の精度になるという大きな差が示されている。
  • 空間の信号対雑音比(SNR)が低いデータセットで学習すると、モデルの時間理解が人間よりも急速に劣化し、さらに課題はモデル規模やアーキテクチャをまたいで継続することが明らかにされている。
  • この限界を克服するには、空間依存を時間処理から切り離すような新しいアーキテクチャや学習パラダイムが必要になるだろうと結論し、データセットとコードを公開して研究を促進するとしている。

要旨: 近年の視覚言語モデル(VLMs)の進歩により、動画における空間—時間関係の理解は目覚ましい成果を上げています。しかし、空間情報が隠されると、これらのモデルは純粋に時間的なパターンを捉えることが困難になります。私たちは、
\textbf{SpookyBench}
を導入します。これは、ノイズのようなフレームの時間的系列のみに情報がエンコードされており、生物学的シグナル伝達から秘匿通信までの自然現象を模したベンチマークです。興味深いことに、人間はこれらの系列の中から形状・テキスト・パターンを 98% 超の精度で認識できる一方で、最先端の VLM は 0% の精度しか達成できません。この性能差は重大な限界を浮き彫りにします。すなわち、フレーム単位の空間的特徴への過度な依存と、時間的手がかりから意味を抽出できないことです。さらに、空間信号対雑音比(SNR)が低いデータセットで学習すると、モデルの時間理解は人間の知覚よりも速いペースで劣化し、とりわけ微細な時間的推論を要するタスクでその傾向が顕著になります。この限界を克服するには、空間的依存関係を時間処理から切り離すような、新しいアーキテクチャまたは学習パラダイムが必要です。私たちの体系的な分析により、この問題はモデル規模やアーキテクチャをまたいで継続していることが示されます。人間と機械の動画理解のギャップを埋め、時間的パターン認識に関する研究を促進するために、私たちは SpookyBench を公開します。データセットとコードは、プロジェクトのWebサイトで提供しています: https://timeblindness.github.io/。