SigLoMa：自己中心視覚から学ぶオープンワールドの四足ロコマニピュレーション

arXiv cs.RO / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、外部モーションキャプチャやオフボード計算への依存をなくすことを目標に、自己中心的な視覚に基づくオープンワールド四足ロコマニピュレーション（ピック＆プレース）用の完全搭載フレームワークSigLoMaを提案している。
従来のエクステロセプション型強化学習が抱えるサンプル効率の極端な悪さと大きなシミュレーション・リアルギャップを、スケーラブルでネイティブにシムツーリアル整合する「Sigma Points」という軽量な幾何学表現で緩和する。
視覚（遅い）と高頻度な浮遊ベース制御（速い）の周波数差を埋めるため、自己中心視覚のカルマンフィルタによる高レートで頑健な状態推定を設計している。
学習面では、Hint Posesに導かれたActive Sampling Curriculumで効率を高め、時間的エンコーディングとランダムウォーク・ドリフトのシミュレーションでロボットの構造的な視覚の死角を補う。
実機実験では、5Hz（200ms遅延）のオープンボキャブラリ検出器のみを用いても、複数タスクで動的ロコマニピュレーションを実行でき、熟練した人の遠隔操作に匹敵する性能が示された。