Proprioceptive Image: An Image Representation of Proprioceptive Data from Quadruped Robots for Contact Estimation Learning

arXiv cs.RO / 3/27/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 提案論文は、四足ロボットの固有感覚(関節角、IMU、足先速度など)の時系列データを、ロボットの形態構造を反映した2次元画像に変換し、CNNで学習できる表現を提示する。
  • この画像化により、時系列の時間的ダイナミクスと複数信号間の相関・歩行(gait)依存パターンを同時に捉え、単純な時系列入力よりも豊かな特徴空間を得られるとする。
  • 応用として接触推定(contact estimation)に適用し、安定かつ適応的な移動のための重要能力を、画像表現による学習で高精度化することを示している。
  • 実データおよびシミュレーションで評価した結果、従来のシーケンス系モデルに比べて精度と汎化が一貫して向上し、短い窓(window size)でも高性能を達成すると報告している。
  • 具体的には、MI-HGNNに対して接触状態精度を87.7%から94.5%へ改善し、窓長は15分の1に短縮できたと述べている。

Abstract

This paper presents a novel approach for representing proprioceptive time-series data from quadruped robots as structured two-dimensional images, enabling the use of convolutional neural networks for learning locomotion-related tasks. The proposed method encodes temporal dynamics from multiple proprioceptive signals, such as joint positions, IMU readings, and foot velocities, while preserving the robot's morphological structure in the spatial arrangement of the image. This transformation captures inter-signal correlations and gait-dependent patterns, providing a richer feature space than direct time-series processing. We apply this concept in the problem of contact estimation, a key capability for stable and adaptive locomotion on diverse terrains. Experimental evaluations on both real-world datasets and simulated environments show that our image-based representation consistently enhances prediction accuracy and generalization over conventional sequence-based models, underscoring the potential of cross-modal encoding strategies for robotic state learning. Our method achieves superior performance on the contact dataset, improving contact state accuracy from 87.7% to 94.5% over the recently proposed MI-HGNN method, using a 15 times shorter window size.