視覚認知からの洞察:全体視(overall glance)と洗練された注視(refined gaze)トランスフォーマーによる人間の行動ダイナミクスの理解

arXiv cs.CV / 2026/4/9

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、一般的なトランスフォーマーによる動画の注意(video-attention)戦略(factorized/windowed)では、相関を領域と時間に分割する方法によって、重要な時空間および長距離の運動依存関係を見落とし得ると主張している。
  • 人間の視覚認知に着想を得て、重要性が時間スケールに応じて時間的・空間的に変化し、注意は「ひらめき/全体視(glance)」(粗い)と「注視(gaze)」(局所的)という挙動を通じて疎に配分されるべきだと提案する。
  • 「全体視(Overall Glance)と洗練された注視(Refined Gaze:OG-ReG)のデュアルパス・トランスフォーマー」を導入し、全体視パスが全体的な時空間コンテキストを捉え、注視パスが局所的な詳細を洗練して補う。
  • 実験では、Kinetics-400、Something-Something v2、Diving-48において最先端またはリーディングの性能が報告されており、本手法が効率とより豊かな時間理解の両立を実現していることが示される。