エゴセントリック動画における個人化質問応答のためのエゴ・グラウンディング

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、エゴセントリック（カメラ装着者目線）動画における個人化質問応答に対して、マルチモーダルLLMを対象に「エゴ・グラウンディング（ego-grounding）」能力を中心とした初の体系的評価を行う。
「MyEgo」として、新しいエゴセントリックVideoQAデータセットを提案する。541本の長尺動画と、「私の持ち物（my things）」「私の行動（my activities）」「私の過去（my past）」に関する約5K件の個人化質問を含み、複数のMLLMバリアントに基づく分析ベンチマークも提示する。
結果は、最上位のクローズド／オープンソースのMLLM（例：GPT-5、Qwen3-VL）でさえMyEgoでは性能が低く、正確度は概ね約46%（クローズド）および約36%（オープン）にとどまり、人間の性能から大きく遅れていることを示す。
明示的な推論やモデルの大規模化は一貫して性能を向上させない一方で、関連する根拠の提示は有効であるが、その改善は時間とともに薄れていく。これは、「私」というアイデンティティや過去の文脈に関する追跡と長期記憶の弱さを示唆する。
著者らは、エゴ・グラウンディングと長期記憶が個人化エゴセントリック支援において欠けている重要な能力であると結論づけ、さらなる研究を促すためにデータ／コードを公開する。