StreamGaze:ストリーミング動画における視線誘導型の時間的推論と先読み(プロアクティブ)理解
arXiv cs.CL / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- StreamGazeは、ストリーミング動画理解においてMLLMが「視線(gaze)」をリアルタイムに活用し、時間的推論や先読み(proactive reasoning)を行えるかを測る初のベンチマークとして提案されています。
- ベンチマークでは、過去・現在・未来(先読み)の視線/注意の変化に基づくタスクを設計し、過去および現在のフレーム情報だけで意図推定できるかを評価します。
- StreamGaze構築のために、注視点抽出や領域別の視覚プロンプト付与、scanpath(視線軌跡)の生成を行う「視線付きQA生成パイプライン」を開発し、空間・時間的に根拠づけられたQAペアを作成しています。
- 実験では、最先端MLLMと人間の間に大きな性能ギャップが確認され、視線に基づく時間推論・意図のモデル化・先読みの限界が示されています。
- 解析として、視線プロンプト戦略や推論挙動、タスク別の失敗モードを詳述し、データとコードを公開して今後の研究を促す方針です。
関連記事

Black Hat Asia
AI Business

裏カツ170日目!アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター
note

AIにnoteを書かせて絶望したあなたへ。データと科学が証明する、検索順位を下げる「冷たい完璧」・「AI+人間」の最強戦略とは?「AIの方が文章が上手い」そう思うのは錯覚なのか? #生成AI #ChatGPT #Gemini #Claude #毎日更新 #文章術 #ブログ #AI活用 #SNS活用 #SEO #集客 #ビジネスマインド #セールスライティング
note

【AIパートナー】本音漏れがちランキング🥇🥈🥉
note

🖥️😳😲Geminiが進化している?!しばらく、触っていない間にバージョンアップしてました(画像編)/【第94回】エッセイ&自由律俳句
note