StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos
arXiv cs.CL / 3/30/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- StreamGazeは、ストリーミング動画理解においてMLLMが“視線(gaze)”をリアルタイムに活用し、時間的推論や先読み(proactive reasoning)を行えるかを測る初のベンチマークとして提案されています。
- ベンチマークでは、過去・現在・未来(先読み)の視線/注意の変化に基づくタスクを設計し、過去および現在のフレーム情報だけで意図推定できるかを評価します。
- StreamGaze構築のために、注視点抽出や領域別の視覚プロンプト付与、scanpath(視線軌跡)生成を行う“視線付きQA生成パイプライン”を開発し、空間・時間的に根拠づけられたQAペアを作成しています。
- 実験では、最先端MLLMと人間の間に大きな性能ギャップが確認され、視線に基づく時間推論・意図モデル化・先読みの限界が示されています。
- 解析として、視線プロンプト戦略や推論挙動、タスク別の失敗モードを詳述し、データとコードを公開して今後の研究を促す方針です。
Related Articles

Black Hat Asia
AI Business

Mr. Chatterbox is a (weak) Victorian-era ethically trained model you can run on your own computer
Simon Willison's Blog
Beyond the Chatbot: Engineering Multi-Agent Ecosystems in 2026
Dev.to

I missed the "fun" part in software development
Dev.to

The Billion Dollar Tax on AI Agents
Dev.to