FD-VLA: 接触が多い操作のための力蒸留視覚-言語-アクションモデル

arXiv cs.RO / 2026/3/23

📰 ニュースModels & Research

共有:

要点

FD-VLAは、物理的な力センサーに依存せず、接触が多い操作における力を意識した推論を可能にする力蒸留型視覚-言語-アクションフレームワークを導入する。
力蒸留モジュールを用いて、視覚観察とロボット状態に条件付けられた学習可能なクエリトークンを、実際の力信号と整合した予測力トークンへ写像する。
推論時には、蒸留された力トークンを事前学習済みの視覚-言語モデルに注入して、視覚-言語のセマンティクスを保ちながら力を意識した推論を可能にし、高価なフォース-トルクセンサーを搭載していないロボットへの展開を可能にする。
実験により、蒸留力トークンは直接センサ測定やベースラインを上回ることが示され、FDMは力-視覚-状態の融合に関する追加の先行情報を提供して、クロスモーダルの整合性と頑健性を改善する。

要約: 力覚センサは Vision-Language-Action (VLA) フレームワークにとって重要なモダリティであり、接触の多いタスクにおいて細かな知覚と器用な操作を可能にします。 Force-Distilled VLA（FD-VLA）を提案します。これは、実際の力センサーに依存せず、接触の多い操作へ力の認識を統合する新しいフレームワークです。アプローチの核は Force Distillation Module（FDM）であり、視覚観察とロボット状態に条件づけられた学習可能なクエリ・トークンを、実際の力信号の潜在表現と整合する予測力トークンへマッピングすることによって力を蒸留します。推論時には、この蒸留された力トークンを事前学習済みのVLMへ注入することで、力を意識した推論を可能にしつつ、ビジョン-言語セマンティクスの整合性を保ちます。この設計は二つの主要な利点を提供します：第一に、高価で壊れやすい力-トルクセンサーを欠く幅広いロボットに対して実用的な展開を可能にし、ハードウェアコストと複雑さを低減します；第二に、FDMはVLMに先行する追加の力-視覚-状態融合を導入し、モーダル間の整合性を向上させ、接触の多い状況での知覚-行動のロバスト性を高めます。驚くべきことに、私たちの物理実験は、蒸留された力トークンが直接のセンサ力測定および他のベースラインを上回ることを示しており、この力蒸留VLAアプローチの有効性を際立たせています。

言語処理学会第32回年次大会(NLP2026) 参加報告

Qiita

Sakana Chatが登場しました

note

AIでも解けなかった「あるなしクイズ」｜人間の直感が勝つ瞬間。AIより、おかんの方が賢かった

note

Gemini 同時通訳の革新：リアルタイム翻訳の圧倒的進化と実務活用ガイド

note

なぜ松尾豊は『AIの第一人者』なのか——Google Scholarと生成AIが作る権威の正体

note

FD-VLA: 接触が多い操作のための力蒸留視覚-言語-アクションモデル

要点

関連記事

言語処理学会第32回年次大会(NLP2026) 参加報告

Sakana Chatが登場しました

AIでも解けなかった「あるなしクイズ」｜人間の直感が勝つ瞬間。AIより、おかんの方が賢かった

Gemini 同時通訳の革新：リアルタイム翻訳の圧倒的進化と実務活用ガイド

なぜ松尾豊は『AIの第一人者』なのか——Google Scholarと生成AIが作る権威の正体

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

言語処理学会第32回年次大会(NLP2026) 参加報告

Sakana Chatが登場しました

AIでも解けなかった「あるなしクイズ」｜人間の直感が勝つ瞬間。AIより、おかんの方が賢かった

Gemini 同時 通訳の革新：リアルタイム翻訳の圧倒的進化と実務活用ガイド

なぜ松尾豊は『AIの第一人者』なのか——Google Scholarと生成AIが作る権威の正体

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Gemini 同時通訳の革新：リアルタイム翻訳の圧倒的進化と実務活用ガイド