要旨: 手の中での物体の向き替え(reorientation)には、複雑な作業ダイナミクスを扱うために、物体の姿勢(pose)を正確に推定する必要があります。RGBセンシングは姿勢追跡に豊かな意味的手がかりを提供しますが、既存の手法はマルチカメラ構成や高コストなレイトレーシングに依存しています。私たちは、3Dガウススプラッティング(3DGS)を統合して視覚のシミュレーションから実世界へのギャップ(sim-to-real gap)を埋める、単眼RGBによる手の中の向き替えのためのシム・トゥ・リアル(sim-to-real)フレームワークを提案します。私たちの主要な洞察は、ガウス表現空間上でドメインランダム化を行うことです。すなわち、3Dガウスに対して物理的に整合した事前レンダリング拡張を適用することで、物体の姿勢推定のための写実的でランダム化された視覚データを生成します。操作方策(manipulation policy)は、教師-生徒のディスティレーションを伴うカリキュラムベースの強化学習によって訓練され、複雑なふるまいを効率よく学習できるようにします。重要な点として、知覚モデルと制御モデルはいずれも、コンシューマグレードのハードウェアで独立に学習できるため、大規模な計算クラスタを必要としません。実験の結果、3DGSデータで訓練された姿勢推定器は、従来のレンダリングデータで訓練されたものよりも、難しい視覚環境で優れた性能を示しました。私たちは、RGBカメラを備えた実機の多指ハンドでシステムを検証し、厳しい照明条件下でも5種類の多様な物体の頑健な向き替えを実現しました。これらの結果は、ガウススプラッティングがRGBのみを用いた器用な操作(dexterous manipulation)のための実用的な道筋であることを示しています。ハードウェアの展開(deployments)の動画および追加の補足資料については、プロジェクトのWebサイトをご参照ください:https://rffr.leggedrobotics.com/works/viserdex/
ViserDex:ロバストな巧緻な手中再姿勢のための視覚的シム・トゥ・リアル
arXiv cs.RO / 2026/4/14
📰 ニュース
要点
- ViserDexは、単眼RGB入力を用いて、マルチカメラ構成やレイトレーシングなしで姿勢推定の課題に対処しつつ、ロバストな巧緻な手中再姿勢のためのシム・トゥ・リアルの枠組みを提案する。