概要: スマートグラスのようなエゴセントリックAIエージェントは、自然言語コマンドにおける指示対象のあいまいさを解決するために、指差しジェスチャーに依存します。しかし、多モーダル大規模言語モデル(MLLM)の進歩にもかかわらず、現行のシステムはしばしば指差しに関する空間的意味論を正確に基底づけることに失敗します。その代わりに、視覚的な近接性や対象の目立ちやすさとの見かけ上の相関に依存してしまい、この現象を我々は「指示対象幻覚(Referential Hallucination)」と呼びます。このギャップに対処するために、我々はエゴセントリック視点におけるマルチモーダルな指差し推論を評価し、強化することを目的とした包括的な質問応答ベンチマーク「EgoPoint-Bench」を導入します。11,000件超の高忠実度なシミュレーションおよび実世界データを含み、ベンチマークは5つの評価次元と、指示対象の複雑性における3つのレベルから構成されます。大規模な実験の結果、最先端の独自モデルおよびオープンソースモデルはエゴセントリックな指差しに苦戦する一方で、我々の合成データで微調整したモデルは、大幅な性能向上と頑健なシミュレーションから現実への汎化(sim-to-real generalization)を達成することが示されました。本研究は、空間的に配慮した教師データの重要性を明らかにし、正確なエゴセントリックAIアシスタントへ向けたスケーラブルな道筋を提供します。プロジェクトページ: https://guyyyug.github.io/EgoPoint-Bench/
MLLMは指差しを理解するのか? エゴセントリック視覚における指示対象推論のベンチマークと強化
arXiv cs.CV / 2026/4/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、先進的なマルチモーダルLLMでも、エゴセントリック(第一人称)視覚における指差しの空間的意味を正確に根拠づけ(grounding)るのが難しいことを示しています。
- 指差しに関する指示対象推論(referential reasoning)を評価・改善するための新しいQAベンチマーク「EgoPoint-Bench」を提案し、模擬と実環境の11,000件超の高品質データで、複数の評価軸と参照の複雑さレベルをカバーします。
- 実験の結果、プロプライエタリおよびオープンソースの最先端モデルはいずれもエゴセントリックな指差し課題が苦手であることが分かりました。
- 提案手法の合成データで微調整すると大幅な性能向上と高いsim-to-real(シミュレーションから現実への汎化)を得られ、空間を意識した教師データの重要性が裏付けられます。
- 指差しの空間的基盤を強化することが、正確なエゴセントリックAIアシスタントの実現に不可欠であり、そのためのスケーラブルな評価手段を提供する点を強調しています。




