VLLMにおける視線とSet-of-Markを活用した、エゴセントリック動画からの人-物体相互作用の予測

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、エゴセントリック(一人称視点)動画から人-物体相互作用を予測するための、ビジョン・ラージ・ランゲージ・モデル(VLLM)アプローチを提案する。これは、短期および長期の意図理解の双方を必要とする支援システムを対象としている。
  • Set-of-Mark に基づくプロンプト戦略によって視覚的なグラウンディングを改善し、直近の注視(gaze fixation)によって形成される軌跡からユーザの意図を推論する。
  • 相互作用直前の時間的ダイナミクスを捉えるために、入力動画フレームの選択に逆指数サンプリング戦略を導入する。
  • HD-EPIC のエゴセントリック・データセットでの実験により、既存の最先端手法に対する性能向上が示され、本手法がモデルに依存しない(model-agnostic)性質を有することが強調されている。

Abstract

人間と物体の相互作用を予測できる能力は、日常生活の中でユーザーを導き、短期および長期の目標を理解するために、知的な支援システムにおいて非常に望ましいものです。そのような能力を備えたシステムを作るには、いくつかの複雑な課題に取り組む必要があります。本研究は、視点移動(egocentric)ビジョンにおける人間-物体相互作用の予測問題を、ビジョン・ラージ・ラングエッジ・モデル(Vision Large Language Models: VLLMs)を用いて扱います。提案手法は、セット・オブ・マーク(Set-of-Mark)プロンプトによる視覚的グラウンディング能力の向上と、ユーザーの意図を、ユーザーの直近の注視固定によって形成される軌跡によって理解することで、既存手法の主要な制約に対処します。相互作用の直前に起こる時間的ダイナミクスを効果的に捉えるために、入力動画フレームに対して新しい逆指数サンプリング戦略もさらに導入します。egocentric データセット HD-EPIC で実施した実験により、本手法が、対象タスクにおいて従来の最先端手法を上回ること、そしてモデルに依存しない(model-agnostic)性質を示すことが確認されました。