VLBiMan:ビジョン・ランゲージに基づくワンショット実演により汎用的な二腕ロボット操作を可能にする

arXiv cs.RO / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • VLBiManは、タスクを再利用可能な構成要素に分解し、単一の人間によるデモから二腕ロボット操作の汎用的スキルを学習する、ビジョン・ランゲージに基づくロボット向けフレームワークです。
  • 不変な「プリミティブ」スキルをアンカーとして保持しつつ、可変な部分をビジョン・ランゲージ・グラウンディングで動的に適応させることで、シーンが変わってもポリシーの再学習なしで対応できます。
  • セマンティックパースと幾何学的実現可能性制約により、背景の変化、物体の位置変更、視覚的な混雑、外乱などの現場に起因するシーンの曖昧さに対処します。
  • 実験では、VLBiManが模倣学習のベースラインに比べデモ必要量を大幅に削減し、原子的スキルのスプライシングによる長期タスクの構成的一般化を可能にし、意味的に類似した新奇物体や外乱への頑健性を高め、異なるロボット形態へも再学習なしでスキル転移できることが示されています。

概要: 一般化可能な両手(バイマヌアル)操作を達成するには、最小限の人間の入力から効率的に学習しつつ、現実世界の不確実性や多様な身体構造(エンボディメント)に適応できるシステムが必要です。既存のアプローチにはジレンマがあります。模倣方策学習ではタスクの変動をカバーするために多数のデモンストレーションが必要となる一方、モジュール型の手法は動的な環境では柔軟性に欠けがちです。そこで本研究では、VLBiMan という枠組みを提案します。この枠組みは、タスクに応じた分解により、単一の人間の例から再利用可能なスキルを導出しつつ、不変のプリミティブをアンカーとして保持します。そして、視覚と言語に基づくグラウンディングにより、調整可能なコンポーネントを動的に適応させます。この適応メカニズムは、背景の変化、物体の再配置、視覚的な煩雑さによって生じるシーンの曖昧さを、方策の再訓練なしに解決します。さらに、意味解析(セマンティックパーシング)と幾何学的な実現可能性制約を活用することで実現します。加えて、このシステムは、人間のようなハイブリッド制御能力を継承しており、両腕を同期および非同期の両方の形で混在させて使用することを可能にします。大規模な実験により、VLBiMan は工具使用および複数物体タスクにわたって有効性が検証されています。具体的には、(1) 模倣ベースラインに比べてデモンストレーション要件を大幅に削減できること、(2) 長いホライズンのタスクに対して原子(アトミック)スキルのスプライシングによる合成的な一般化が可能であること、(3) 意味的に類似した新しい物体や外乱に対する頑健性が高いこと、(4) 強力なクロス・エンボディメント転移が示され、人間のデモンストレーションから学習したスキルを、再訓練なしで異なるロボットプラットフォーム上に具現化できること、です。人間の事前知識と、視覚・言語にアンカーした適応を橋渡しすることで、本研究は、構造化されていない環境における実用的で多用途な二腕操作に向けた一歩を提供します。