要旨:ユーザーの指差ジェスチャーに基づく質問の理解と回答は、次世代の自己視点AIアシスタントにとって不可欠です。しかし、現在のマルチモーダル大規模言語モデル(MLLM)は、ジェスチャー豊富なデータの不足と自己視点の動画から微細な指差意図を推測する能力の限界のため、こうしたタスクに苦戦しています。この課題に対処するため、ジェスチャーを根拠とした自己視点の質問応答のデータセットとベンチマークである EgoPointVQA を紹介します。複数の指示推論タスクに跨る 4000 の合成動画と 400 の実世界動画で構成されています。これを基盤として、3D 手のキーポイントから派生したトークンを市販の再構成モデルを用いてエンコードし、それらをモデル入力と組み合わせて、指差の意図を解釈するための明示的な空間的・時間的文脈を提供する Hand Intent Tokens(HINT)を提案します。私たちのモデルは、異なるバックボーンやモデルサイズにおいて他より優れていることを示します。特に、HINT-14B は 6 タスクの平均で 68.1% の精度を達成し、最先端の InternVL3-14B を 6.6% 上回ります。オープンリサーチをさらに促進するために、コード、モデル、データセットを公開します。プロジェクトページ: https://yuuraa.github.io/papers/choi2026egovqa
私が指しているものは見えますか? ジェスチャーを用いた一人称視点動画の質問応答
arXiv cs.CV / 2026/3/16
📰 ニュースTools & Practical UsageModels & Research
要点
- EgoPointVQA というデータセットとベンチマークを紹介します。ジェスチャーに基づくエゴセントリックな質問応答のデータセットとベンチマークで、複数の指示推論タスクにまたがる 4000 本の合成動画と 400 本の実世界動画から構成されます。
- 3D 手のキーポイントから導出された Hand Intent Tokens (HINT) を提案し、指し示す意図を解釈するための明示的な空間的・時間的文脈を提供するよう、モデル入力と組み合わせて挿入します。
- HINT がバックボーンとモデルサイズを問わず性能を向上させることを実証し、HINT-14B は6タスクを平均して 68.1% の精度を達成し、最先端の InternVL3-14B を 6.6 ポイント上回ります。
- オープンリサーチに向けてコード・モデル・データセットを公開する予定で、プロジェクトページは https://yuuraa.github.io/papers/choi2026egovqa にあります。
- エゴセントリックAIアシスタントのためのジェスチャー豊富なデータのギャップに対処し、指差ジェスチャーのより正確な理解を可能にすることで、ジェスチャーを基盤とするVQAを前進させます。