HiSync:長距離HRIにおけるコマンド出所識別のための、ウェアラブルIMUとロボット搭載カメラの手の動きを時空間的に整合する

arXiv cs.RO / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、光学—慣性融合の枠組みであるHiSyncを提案し、ロボット搭載カメラの光フローを手に装着したIMUと時空間的に整合させることで、長距離・複数ユーザのHRIにおけるコマンドの出所を識別する。
  • HiSyncは両モダリティから周波数領域の特徴を学習し、CSINetでIMU信号をノイズ除去し、時間的整合に加えて距離に応じた距離認識マルチウィンドウ融合を用いることで、微妙な自然なしぐさを対応づける。
  • 著者らは、ユーザが定義したジェスチャセット(N=12)と、長距離の複数ユーザ状況を想定したマルチモーダル・コマンドジェスチャデータセット(N=38)を収集し、距離および複数ユーザによって生じる曖昧さを解消することを目指す。
  • 3人シーンで最大34メートルにおいて、HiSyncは92.32%のCSI精度を報告し、先行する最先端手法に対する48.44%の改善を主張しており、実機ロボットへの導入によって検証されている。
  • 本研究は実用的なHRIの基礎プリミティブとして位置づけられ、設計上の指針を提供する。再現性とさらなる発展のためにGitHubでコードが公開されている。

概要: 長距離のヒューマン-ロボット相互作用(HRI)は、十分に研究されていません。その中でも、コマンドソース識別(CSI)――誰がコマンドを発したかを特定すること――は、多人数かつ距離によってセンサの曖昧さが生じるため、特に困難です。本稿では、手の動作を結び付けの手がかり(バインディングキュー)として扱う光学-慣性融合フレームワーク HiSync を提案します。具体的には、ロボット搭載カメラの光学フローを、手首装着の IMU 信号と整合させることで、これを実現します。まず、ユーザが定義したジェスチャ集合(N=12)を引き出し、長距離・多人数 HRI シナリオにおいてマルチモーダルなコマンドジェスチャデータセット(N=38)を収集します。次に HiSync は、カメラと IMU の両データから周波数領域の手の動作特徴を抽出し、学習済みの CSINet により IMU の読み取りをノイズ除去し、モダリティを時間的に整列させ、距離に応じたマルチウィンドウ融合を行うことで、微妙で自然なジェスチャに対するクロスモーダル類似度を計算し、堅牢な CSI を可能にします。3人シーンで最大 34m において、HiSync は CSI 精度 92.32% を達成し、従来の SOTA を 48.44% 上回ります。HiSync は実機ロボットでの導入により、さらに検証されています。CSI を信頼性高く自然なものにすることで、HiSync は公共空間 HRI に対する実用的なプリミティブおよび設計指針を提供します。 https://github.com/OctopusWen/HiSync