TAIHRI: 接近型のヒューマンロボットインタラクションのためのタスク認識型3D人体キーポイント推定
arXiv cs.CV / 2026/4/13
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、接近型のヒューマンロボットインタラクションに特化したビジョン・言語モデルであるTAIHRIを提案し、タスク上重要な身体部位に対する3D人体キーポイントのローカライゼーションを改善する。
- 従来の全身またはルート(基部)に焦点を当てた3Dキーポイント手法の限界を、エゴセントリック(視点中心)カメラの3D座標系におけるメートルスケール精度を狙うことで克服する。
- TAIHRIは3Dキーポイントを有限のインタラクション空間に量子化し、次トークン予測によって2Dキーポイント推論を行うことで、正確な3D座標を復元する。
- このアプローチは、自然言語による制御やグローバル空間でのヒューマンメッシュ復元など、下流のHRIタスクに適応できる。
- エゴセントリックなインタラクションのベンチマークに対する実験では、タスクに関連するキーポイントにおいて優れた精度が報告されており、著者らは参照GitHubリポジトリを通じてコードを提供している。




