固有感覚画像(Proprioceptive Image):接触推定学習のために四足ロボットから得られる固有感覚データを画像として表現する

arXiv cs.RO / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 提案論文は、四足ロボットの固有感覚(関節角、IMU、足先速度など)の時系列データを、ロボットの形態構造を反映した2次元画像に変換し、CNNで学習できる表現を提示する。
  • この画像化により、時系列の時間的ダイナミクスと複数信号間の相関・歩行(gait)依存パターンを同時に捉え、単純な時系列入力よりも豊かな特徴空間を得られるとする。
  • 応用として接触推定(contact estimation)に適用し、安定かつ適応的な移動のための重要能力を、画像表現による学習で高精度化することを示している。
  • 実データおよびシミュレーションで評価した結果、従来のシーケンス系モデルに比べて精度と汎化が一貫して向上し、短い窓(window size)でも高性能を達成できると報告している。
  • 具体的には、MI-HGNNに対して接触状態精度を87.7%から94.5%へ改善し、窓長は15分の1に短縮できたと述べている。

Abstract

本論文は、四足ロボットの固有受容(proprioceptive)時系列データを、構造化された2次元画像として表現するための新規アプローチを提案する。これにより、畳み込みニューラルネットワークを用いて移動(ロコモーション)に関連するタスクを学習できるようになる。提案手法は、関節位置、IMU(慣性計測装置)の読み取り、足部速度などの複数の固有受容信号から時間的ダイナミクスを符号化しつつ、画像内の空間配置においてロボットの形態(モルフォロジカル)構造を保持する。これによって、信号間の相関や歩様(ゲイト)に依存したパターンが捉えられ、直接的な時系列処理よりも豊かな特徴空間が得られる。さらにこの概念を、接触(contact)推定の問題に適用する。接触推定は、多様な地形に対して安定かつ適応的に移動するための重要な能力である。実環境のデータセットとシミュレーション環境の両方に対する実験評価により、本手法の画像ベース表現が従来のシーケンスベースモデルに比べて、予測精度と汎化性能を一貫して向上させることが示される。これは、ロボットの状態学習における異種モーダル符号化(cross-modal encoding)戦略の可能性を裏付けるものである。本手法は接触データセットにおいて優れた性能を達成し、最近提案されたMI-HGNN手法に対して、15倍短いウィンドウサイズを用いながら、接触状態の精度を87.7%から94.5%へと改善する。