要旨: 狡猾な(dexterous)操作に関する現在の実践は一般に、単一の手首に取り付けた視点に依存しており、しばしば遮蔽されてしまい、複数視点の知覚を必要とするタスクでの性能を制限しています。本研究では、指先の視覚知覚を用いるビジュオモータ(visuomotor)方策によって巧緻操作を行う学習システム「FingerViP」を提案します。具体的には、埋め込み型のミニチュアカメラを備えた、視覚強化型の指先モジュールを設計し、多指ハンドの各指にそれらのモジュールを取り付けます。指先カメラは、手およびその周囲環境の包括的な多視点フィードバックを提供することで、視覚知覚を大幅に改善します。統合された指先モジュールに基づき、第三視点カメラと多視点指先ビジョンに条件付けされた拡散(diffusion)ベースの全身ビジュオモータ方策を開発し、人間のデモンストレーションから複雑な操作スキルを直接学習できるようにします。視点と固有感覚(proprioception)の整合、ならびに接触意識を改善するために、各指先の視覚特徴に、その対応するカメラ姿勢のエンコーディングと、指ごとの関節現在状態(joint-current)のエンコーディングを付加します。多視点指先ビジョンの有効性を検証し、FingerViPの頑健性と適応性を、限られた箱の中でボタンを押すこと、不安定な支持体から棒を取り出すこと、遮蔽カーテンの背後にある物体を回収すること、長いホライズンのキャビネット開閉と物体回収を行うことなど、さまざまな難しい実世界タスクで実証します。総合成功率は80.8%です。すべてのハードウェア設計とコードは完全にオープンソース化します。
FingerViP:指先の視覚知覚で実世界の器用なハンド操作を学習する
arXiv cs.RO / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- FingerViPは、単一の手首搭載視点に代えて、指先の視覚知覚(複数のミニカメラ)を用いて器用なマニピュレーションを学習する新しいシステムです。
- 指ごとに埋め込み型のミニカメラを搭載した「視覚強化フィンガーモジュール」を追加し、手と周囲環境を多視点でフィードバックすることで、遮蔽による性能低下を抑えます。
- 第三視点カメラと多視点の指先視覚を条件にした拡散(diffusion)ベースの全身ビジュオモータポリシーを学習し、人のデモンストレーションから複雑な技能を直接獲得します。
- 視覚特徴と身体感覚(プロプリオセプション)および接触認識の整合を高めるため、指先の視覚入力にカメラ姿勢エンコーディングと各指の関節の現在値エンコーディングを付加します。
- 困難な実環境タスクで頑健性と適応性を検証し、80.8%の総成功率を達成しています(箱の中のボタン押し、倒れやすい支持体からの棒の回収、遮蔽カーテンの背後からの物体回収、長時間のキャビネット開閉など)。また、ハードウェア設計とコードは完全にオープンソース化される予定です。


