基盤モデルに基づく自律型二足歩行ヒューマノイドの把持のための迅速デプロイメント・パイプライン

arXiv cs.RO / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

本論文は、ヒューマノイドが新しい対象を扱う際のオンボーディング期間を1〜2日から約30分へ短縮する、エンドツーエンドの迅速デプロイメント・パイプラインを提案している。
システムは基盤モデルを用いて、(1) Roboflowによる自動アノテーションでYOLOv8の物体検出器を訓練し、(2) Meta SAM 3Dでレーザースキャナを不要にして3D再構成を行い、(3) SAM 3Dで生成したメッシュをテンプレートとしてFoundationPoseでゼロショット6自由度(6-DoF)姿勢推定を実行する。
推定した姿勢をUnityベースの逆運動学プランナに入力し、UDPでUnitree G1の関節指令をストリーミングしてUnitree SDK経由で実行する実装になっている。
実機でmAP@0.5=0.995の検出精度、姿勢追跡の精度σ<1.05mmを示し、作業空間内の5位置で把持に成功したうえ、自動車の窓ガラスへの接着剤塗布タスクでも一般性を検証している。

概要: ヒト型ロボットを使って新しい対象物を操作するには、これまで伝統的に 1〜2 日の労力が必要でした。すなわち、データ収集、手動によるアノテーション、3Dモデルの取得、そしてモデルの学習です。本論文は、新しい対象物のオンボーディング期間を約30分にまで短縮するために、3つの基盤モデルコンポーネントを統合したエンドツーエンドの迅速デプロイメント・パイプラインを提案します。具体的には、(i) YOLOv8 の物体検出器の学習を支援するための Roboflow ベースの自動アノテーション、(ii) 専用のレーザースキャナを不要にする Meta SAM 3D に基づく3D再構成、(iii) SAM~3D によって生成されたメッシュをそのままテンプレートとして用いる FoundationPose によるゼロショット 6-DoF 姿勢追跡です。推定された姿勢は、Unity ベースの逆運動学プランナーに入力されます。このとき、関節指令は UDP 経由で Unitree~G1 ヒト型へストリーミングされ、Unitree SDK を通じて実行されます。我々は、検出精度 mAP@0.5 = 0.995、姿勢追跡精度 $sigma < 1.05$ mm、および作業空間内の 5 つの位置で実ロボットによる把持の成功を示します。さらに、自動車の窓への接着剤塗布タスクにおいて、このパイプラインの汎用性を検証します。その結果、知覚のための基盤モデルと日常的な撮像デバイス（例：スマートフォン）を組み合わせることで、ヒト型の操作タスクにおけるデプロイメントの障壁を大幅に低減できることが分かります。