TAIHRI: 接近型のヒューマンロボットインタラクションのためのタスク認識型3D人体キーポイント推定

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、接近型のヒューマンロボットインタラクションに特化したビジョン・言語モデルであるTAIHRIを提案し、タスク上重要な身体部位に対する3D人体キーポイントのローカライゼーションを改善する。
従来の全身またはルート（基部）に焦点を当てた3Dキーポイント手法の限界を、エゴセントリック（視点中心）カメラの3D座標系におけるメートルスケール精度を狙うことで克服する。
TAIHRIは3Dキーポイントを有限のインタラクション空間に量子化し、次トークン予測によって2Dキーポイント推論を行うことで、正確な3D座標を復元する。
このアプローチは、自然言語による制御やグローバル空間でのヒューマンメッシュ復元など、下流のHRIタスクに適応できる。
エゴセントリックなインタラクションのベンチマークに対する実験では、タスクに関連するキーポイントにおいて優れた精度が報告されており、著者らは参照GitHubリポジトリを通じてコードを提供している。