FCBV-Net：特徴条件付き二腕価値予測によるカテゴリー・レベルのロボット用衣類スムージング

arXiv cs.RO / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

FCBV-Net（Feature-Conditioned bimanual Value Network）は、3Dポイントクラウドを用いてロボットによる衣類の二腕スムージングを、カテゴリー（種類）レベルで一般化できるようにする手法を提案している。
事前学習済みの密な幾何特徴を凍結し、それらを条件として二腕動作の価値（value）予測を行うことで、同一カテゴリー内の衣類バリエーションに対する頑健性を高めている。
学習は下流のタスク特化コンポーネントに限定し、幾何理解と価値学習（ポリシー学習）を分離することで、過学習や共同学習による性能劣化を抑える狙いがある。
PyFlexシミュレーション上でCLOTH3Dを用いた評価では、未見衣類に対するSteps80の効率低下が11.5%にとどまり、2D画像ベースの96.2%より大幅に改善した。

要旨: 両手によるならし（bimanual smoothing）のような、ロボットによる衣類操作におけるカテゴリ・レベルの汎化は、高次元性、複雑なダイナミクス、そして同一カテゴリ内でのばらつきにより、依然として大きな障壁である。現在の手法はしばしば、(1) 特定のインスタンスに対して同時に学習される視覚特徴によって過適合してしまうか、あるいは (2) カテゴリ・レベルの知覚的汎化を達成できているにもかかわらず、相乗的な両手動作の価値を予測できない、という課題に直面する。我々は、衣類のならしのためにカテゴリ・レベルの方策（policy）汎化を特に強化する、3D点群上で動作する特徴条件付き両手動作価値ネットワーク（Feature-Conditioned bimanual Value Network; FCBV-Net）を提案する。FCBV-Netは、事前学習済みで凍結した緻密な幾何学的特徴に条件付けることで、両手動作価値予測を行い、同一カテゴリ内における衣類のばらつきに対する頑健性を保証する。続いて学習可能な下流コンポーネントは、これらの固定された特徴を用いてタスク固有の方策を学習する。CLOTH3Dデータセットを用いた、シミュレーション環境PyFlexにおいて、FCBV-Netはカテゴリ・レベルの汎化で優れた性能を示した。未見の衣類に対して効率の低下はわずか11.5%（Steps80）であり、2D画像ベースラインの96.2%に比べて大幅に小さかった。また、最終カバレッジは89%を達成し、同一の点ごとの幾何学的特徴を用いながら固定プリミティブを使用する3D対応（correspondence）ベースラインによる83%のカバレッジを上回った。これらの結果は、幾何学的理解の学習と、両手動作価値の学習を切り離すことで、より良いカテゴリ・レベルの汎化が可能になることを示している。コード、動画、および補足資料はプロジェクトのWebサイトで提供されている: https://dabaspark.github.io/fcbvnet/