マルチモーダルな深度対応手法による身体的参照理解
arXiv cs.RO / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、言語指示とポインティング(指差し)手がかりの両方を用いて対象物を特定する「身体的参照理解」に取り組み、複数の候補物が存在する曖昧な場面での識別を重視しています。
- LLMベースのデータ拡張と深度マップ・モダリティを組み合わせることで、雑然とした環境や曖昧な状況での性能を高める新しいERUフレームワークを提案しています。
- 深度に配慮した意思決定モジュールを導入し、言語情報と身体的(ジェスチャー等の)手がかりをより効果的に統合して曖昧さを解消します。
- 2つのデータセットでの実験により、提案手法が既存ベースラインよりも高精度かつ信頼性の高い参照対象検出を実現したことが示されています。