要約: 力覚センサは Vision-Language-Action (VLA) フレームワークにとって重要なモダリティであり、接触の多いタスクにおいて細かな知覚と器用な操作を可能にします。 Force-Distilled VLA(FD-VLA)を提案します。これは、実際の力センサーに依存せず、接触の多い操作へ力の認識を統合する新しいフレームワークです。 アプローチの核は Force Distillation Module(FDM)であり、視覚観察とロボット状態に条件づけられた学習可能なクエリ・トークンを、実際の力信号の潜在表現と整合する予測力トークンへマッピングすることによって力を蒸留します。 推論時には、この蒸留された力トークンを事前学習済みのVLMへ注入することで、力を意識した推論を可能にしつつ、ビジョン-言語セマンティクスの整合性を保ちます。 この設計は二つの主要な利点を提供します:第一に、高価で壊れやすい力-トルクセンサーを欠く幅広いロボットに対して実用的な展開を可能にし、ハードウェアコストと複雑さを低減します;第二に、FDMはVLMに先行する追加の力-視覚-状態融合を導入し、モーダル間の整合性を向上させ、接触の多い状況での知覚-行動のロバスト性を高めます。 驚くべきことに、私たちの物理実験は、蒸留された力トークンが直接のセンサ力測定および他のベースラインを上回ることを示しており、この力蒸留VLAアプローチの有効性を際立たせています。
FD-VLA: 接触が多い操作のための力蒸留視覚-言語-アクションモデル
arXiv cs.RO / 2026/3/23
📰 ニュースModels & Research
要点
- FD-VLAは、物理的な力センサーに依存せず、接触が多い操作における力を意識した推論を可能にする力蒸留型視覚-言語-アクションフレームワークを導入する。
- 力蒸留モジュールを用いて、視覚観察とロボット状態に条件付けられた学習可能なクエリトークンを、実際の力信号と整合した予測力トークンへ写像する。
- 推論時には、蒸留された力トークンを事前学習済みの視覚-言語モデルに注入して、視覚-言語のセマンティクスを保ちながら力を意識した推論を可能にし、高価なフォース-トルクセンサーを搭載していないロボットへの展開を可能にする。
- 実験により、蒸留力トークンは直接センサ測定やベースラインを上回ることが示され、FDMは力-視覚-状態の融合に関する追加の先行情報を提供して、クロスモーダルの整合性と頑健性を改善する。



