私が指しているものは見えますか？ジェスチャーを用いた一人称視点動画の質問応答

arXiv cs.CV / 2026/3/16

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

EgoPointVQA というデータセットとベンチマークを紹介します。ジェスチャーに基づくエゴセントリックな質問応答のデータセットとベンチマークで、複数の指示推論タスクにまたがる 4000 本の合成動画と 400 本の実世界動画から構成されます。
3D 手のキーポイントから導出された Hand Intent Tokens (HINT) を提案し、指し示す意図を解釈するための明示的な空間的・時間的文脈を提供するよう、モデル入力と組み合わせて挿入します。
HINT がバックボーンとモデルサイズを問わず性能を向上させることを実証し、HINT-14B は6タスクを平均して 68.1% の精度を達成し、最先端の InternVL3-14B を 6.6 ポイント上回ります。
オープンリサーチに向けてコード・モデル・データセットを公開する予定で、プロジェクトページは https://yuuraa.github.io/papers/choi2026egovqa にあります。
エゴセントリックAIアシスタントのためのジェスチャー豊富なデータのギャップに対処し、指差ジェスチャーのより正確な理解を可能にすることで、ジェスチャーを基盤とするVQAを前進させます。

要旨：ユーザーの指差ジェスチャーに基づく質問の理解と回答は、次世代の自己視点AIアシスタントにとって不可欠です。しかし、現在のマルチモーダル大規模言語モデル（MLLM）は、ジェスチャー豊富なデータの不足と自己視点の動画から微細な指差意図を推測する能力の限界のため、こうしたタスクに苦戦しています。この課題に対処するため、ジェスチャーを根拠とした自己視点の質問応答のデータセットとベンチマークである EgoPointVQA を紹介します。複数の指示推論タスクに跨る 4000 の合成動画と 400 の実世界動画で構成されています。これを基盤として、3D 手のキーポイントから派生したトークンを市販の再構成モデルを用いてエンコードし、それらをモデル入力と組み合わせて、指差の意図を解釈するための明示的な空間的・時間的文脈を提供する Hand Intent Tokens（HINT）を提案します。私たちのモデルは、異なるバックボーンやモデルサイズにおいて他より優れていることを示します。特に、HINT-14B は 6 タスクの平均で 68.1% の精度を達成し、最先端の InternVL3-14B を 6.6% 上回ります。オープンリサーチをさらに促進するために、コード、モデル、データセットを公開します。プロジェクトページ: https://yuuraa.github.io/papers/choi2026egovqa

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Gmailで返信を自動作成、「Google AI Plus」で驚異の時短術

日経XTECH

私が指しているものは見えますか？ジェスチャーを用いた一人称視点動画の質問応答

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Gmailで返信を自動作成、「Google AI Plus」で驚異の時短術

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer