RoboMatch:長期タスクのための自動マッチング・ネットワーク・アーキテクチャを備えた統合型モバイル操作(テレオペレーション)プラットフォーム

arXiv cs.RO / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、動的環境における長期タスクでの性能向上を目的とした、モバイルマニピュレーションのための統合テレオペレーション・プラットフォーム「RoboMatch」を提案する。
  • RoboMatchは、モバイルベースと両腕を同期的に協調させるコックピット風インターフェースを用いることで、制御精度とデータ収集効率を向上させる。
  • Proprioceptive-Visual Enhanced Diffusion Policy(PVE-DP)を提案し、離散ウェーブレット変換によってマルチスケールの視覚特徴を扱い、高精度なエンドエフェクタIMUの固有受容(proprioception)情報を統合することで、微細なマニピュレーションを強化する。
  • Auto-Matching Network(AMN)のアーキテクチャは、長期タスクを論理的なサブシーケンスに分解し、軽量な事前学習モデルを動的にルーティングして、分散推論を実現する。
  • 実験結果では、データ収集効率が20%以上向上し、PVE-DPによってタスク成功率が20〜30%改善し、AMNによる長期推論性能が約40%向上することが報告されている。

要旨: 本論文は、動的環境における長期ホライズン課題に取り組むことを目的とした、自動マッチング・ネットワーク・アーキテクチャを備えるモバイルマニピュレーションのための、統一されたテレオペレーション基盤である RoboMatch を提案する。提案手法は、テレオペレーションの性能、データ収集効率、課題精度、そして運用の安定性を向上させる。RoboMatch の中核はコックピット風の操作インタフェースであり、モバイルベースとデュアルアームの同期動作を可能にすることで、制御精度とデータ収集を大幅に改善する。さらに我々は、Discrete Wavelet Transform(DWT)を用いてマルチスケールの視覚特徴抽出を行い、エンドエフェクタに高精度 IMU を統合することで固有感覚(proprioceptive)のフィードバックを強化し、微細操作の性能を大幅に向上させる Proprioceptive-Visual Enhanced Diffusion Policy(PVE-DP)を導入する。加えて、長期ホライズン課題を論理的な一連のステップに分解し、分散推論のために軽量な事前学習済みモデルを動的に割り当てる Auto-Matching Network(AMN)アーキテクチャを提案する。実験結果は、本アプローチがデータ収集効率を20%以上改善し、PVE-DP により課題成功率を20〜30%向上させ、AMN により長期ホライズン推論性能を約40%向上させることを示しており、複雑な操作タスクに対する堅牢な解決策を提供する。プロジェクトのウェブサイト: https://robomatch.github.io