VLLMにおける視線とSet-of-Markを活用した、エゴセントリック動画からの人-物体相互作用の予測
arXiv cs.CV / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、エゴセントリック(一人称視点)動画から人-物体相互作用を予測するための、ビジョン・ラージ・ランゲージ・モデル(VLLM)アプローチを提案する。これは、短期および長期の意図理解の双方を必要とする支援システムを対象としている。
- Set-of-Mark に基づくプロンプト戦略によって視覚的なグラウンディングを改善し、直近の注視(gaze fixation)によって形成される軌跡からユーザの意図を推論する。
- 相互作用直前の時間的ダイナミクスを捉えるために、入力動画フレームの選択に逆指数サンプリング戦略を導入する。
- HD-EPIC のエゴセントリック・データセットでの実験により、既存の最先端手法に対する性能向上が示され、本手法がモデルに依存しない(model-agnostic)性質を有することが強調されている。




