広告

StreamGaze:ストリーミング動画における視線誘導型の時間的推論と先読み(プロアクティブ)理解

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • StreamGazeは、ストリーミング動画理解においてMLLMが「視線(gaze)」をリアルタイムに活用し、時間的推論や先読み(proactive reasoning)を行えるかを測る初のベンチマークとして提案されています。
  • ベンチマークでは、過去・現在・未来(先読み)の視線/注意の変化に基づくタスクを設計し、過去および現在のフレーム情報だけで意図推定できるかを評価します。
  • StreamGaze構築のために、注視点抽出や領域別の視覚プロンプト付与、scanpath(視線軌跡)の生成を行う「視線付きQA生成パイプライン」を開発し、空間・時間的に根拠づけられたQAペアを作成しています。
  • 実験では、最先端MLLMと人間の間に大きな性能ギャップが確認され、視線に基づく時間推論・意図のモデル化・先読みの限界が示されています。
  • 解析として、視線プロンプト戦略や推論挙動、タスク別の失敗モードを詳述し、データとコードを公開して今後の研究を促す方針です。

広告
StreamGaze:ストリーミング動画における視線誘導型の時間的推論と先読み(プロアクティブ)理解 | AI Navigate