VILAS:ロボットマニピュレーション向けVLA統合の低コスト・アーキテクチャとソフトな把持

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • VILASは、低コストでモジュール化されたロボットマニピュレーション基盤であり、アクセスしやすいハードウェア上でのエンドツーエンドの視覚言語動作(VLA)ポリシー学習・展開を目的としています。
  • 同システムはFairino FR5協働ロボットアーム、Jodell RG52-50電動グリッパ、デュアルカメラを組み合わせ、ZMQベースの通信アーキテクチャで統合し、遠隔操作・データ収集・ポリシー展開を1つのワークフローとして連携させます。
  • 明示的な力覚センサーに頼らずに脆い物体を安全に扱うため、VILASは圧縮荷重下で予測可能な変形を生み出す折り紙(kirigami)ベースのソフトなコンプライアント・グリッパ拡張を設計し、優しく再現性のある接触を実現します。
  • 主要なVLAモデル3種(pi_0、pi_0.5、GR00T N1.6)を公開済みの事前学習チェックポイントから同一の実演データセット(遠隔操作パイプラインで収集)で微調整し、ぶどうの把持タスクで性能を検証しています。
  • 実験結果は、低コストのモジュール型ハードウェアでも有効なVLAポリシーを学習・展開できることを示し、さらに現行VLAモデルの実運用における挙動に関する実践的な知見を提供しています。