VLLMにおける視線とSet-of-Markを活用した、エゴセントリック動画からの人-物体相互作用の予測

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、エゴセントリック（一人称視点）動画から人-物体相互作用を予測するための、ビジョン・ラージ・ランゲージ・モデル（VLLM）アプローチを提案する。これは、短期および長期の意図理解の双方を必要とする支援システムを対象としている。
Set-of-Mark に基づくプロンプト戦略によって視覚的なグラウンディングを改善し、直近の注視（gaze fixation）によって形成される軌跡からユーザの意図を推論する。
相互作用直前の時間的ダイナミクスを捉えるために、入力動画フレームの選択に逆指数サンプリング戦略を導入する。
HD-EPIC のエゴセントリック・データセットでの実験により、既存の最先端手法に対する性能向上が示され、本手法がモデルに依存しない（model-agnostic）性質を有することが強調されている。

Abstract

人間と物体の相互作用を予測できる能力は、日常生活の中でユーザーを導き、短期および長期の目標を理解するために、知的な支援システムにおいて非常に望ましいものです。そのような能力を備えたシステムを作るには、いくつかの複雑な課題に取り組む必要があります。本研究は、視点移動（egocentric）ビジョンにおける人間-物体相互作用の予測問題を、ビジョン・ラージ・ラングエッジ・モデル（Vision Large Language Models: VLLMs）を用いて扱います。提案手法は、セット・オブ・マーク（Set-of-Mark）プロンプトによる視覚的グラウンディング能力の向上と、ユーザーの意図を、ユーザーの直近の注視固定によって形成される軌跡によって理解することで、既存手法の主要な制約に対処します。相互作用の直前に起こる時間的ダイナミクスを効果的に捉えるために、入力動画フレームに対して新しい逆指数サンプリング戦略もさらに導入します。egocentric データセット HD-EPIC で実施した実験により、本手法が、対象タスクにおいて従来の最先端手法を上回ること、そしてモデルに依存しない（model-agnostic）性質を示すことが確認されました。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

VLLMにおける視線とSet-of-Markを活用した、エゴセントリック動画からの人-物体相互作用の予測

要点

Abstract

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化