Sixth-Sense:平面型ライダーデータから人の空間的な認識を自己教師あり学習する

arXiv cs.RO / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、1D LiDARから人を検出し2D姿勢を推定する自己教師あり手法を提案し、狭い視野のカメラによる認識の偏りや、低コスト1Dセンサの読み取り解釈の難しさを解決します。
  • RGB-Dカメラの検出結果を教師信号として用いることで、運用時に高価な3D LiDARを必ずしも必要としない学習を可能にしています。
  • 自律的に収集した70分のデータで学習したモデルは、未見の環境で人を全方位的に検出でき、精度71%、再現率80%を達成します。
  • さらに距離と向きの推定では、距離13cm、方位44°の平均絶対誤差を示し、追加の公共環境での検証から、ソーシャルに配慮したサービスロボット向けの実用的な広視野の認識レイヤとして機能し得ることが示されています。

Abstract

人の信頼できるローカライゼーションは、人間と密に相互作用しながら稼働しなければならないサービスロボットやソーシャルロボットにとって根本的に重要である。最先端の人検出器は多くの場合、RGB-Dカメラや高価な3D LiDARに依存している。しかし、ほとんどの市販ロボットには視野が狭いカメラが搭載されており、別の方向から接近してくるユーザを認識できないことがある。また、安価な1D LiDARでは、その読み取り値の解釈が難しい。これらの制約に対処するため、本研究では、RGB-Dカメラの検出を教師(スーパービジョン)として用い、1D LiDARデータから人を検出し、さらに2D姿勢を推定する自己教師ありアプローチを提案する。自律的に収集した70分間のデータで学習した本モデルは、未見の環境において全方位的に人を検出し、精度71%、再現率80%を達成する。距離における平均絶対誤差は13cm、方位における平均絶対誤差は44{\deg}であり、これはグラウンドトゥルースデータに対して測定された値である。生の検出精度を超えて、この能力は、共有された公共空間で稼働するロボットにとって重要である。そこでは、近くの人に対する全方位的な認識が、安全なナビゲーション、適切な接近行動、低コストでプライバシーを保護するセンシングによるタイムリーなヒューマン・ロボット間インタラクションの開始に不可欠となる。さらに2つの追加の公共環境での展開結果は、このアプローチが、ソーシャルに配慮したサービスロボティクスにおける実用的な広視野(wide-FOV)認識レイヤとして機能し得ることを示唆している。