TacVLA:接触を意識した触覚融合による堅牢な視覚言語行動操作

arXiv cs.RO / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • TacVLAは、接触が多く、遮蔽が起きやすく、かつ微細なタスクにおける性能を、変圧器ポリシーに触覚入力を追加することで向上させる、ロボット操作向けの微調整済み視覚言語行動(VLA)モデルです。
  • 接触を意識したゲーティング機構を導入し、接触が検出されたときだけ触覚トークンを有効化することで、無関係な触覚による干渉を減らし、適応的なマルチモーダル融合を可能にします。
  • 提案手法は、視覚・言語・触覚トークンを変圧器内で共同で処理することで、物理的相互作用中のモーダル間のグラウンディングを強化します。
  • 制約でロックされた分解、インボックスでのピッキング、ならびに堅牢性テストに関する実験では、ベースラインに比べて大幅な改善が示されました。分解で平均約20%の向上、インボックスでのピッキングで約60%の向上、そして視覚遮蔽下で2.1×の改善です。
  • 著者らは動画を提供しており、コードの公開も計画しています。触覚を強化したVLAポリシーの再現性と、さらなる評価を支援します。

要旨: Vision-Language-Action(VLA)モデルはロボットによるマニピュレーションにおいて大きな利点を示してきました。しかし、視覚と言語への依存が強いため、視覚の遮蔽、微細なマニピュレーション、身体的接触を伴うタスクでは最適でない性能につながることがしばしばあります。これらの課題に対処するために、本研究では、トランスフォーマー型ポリシーに触覚モダリティを取り込むことで微細なマニピュレーション能力を高める、微調整済みVLAモデルTacVLAを提案します。具体的には、接触が検出されたときにのみ触覚トークンを選択的に活性化する、接触認識に基づくゲーティング機構を導入します。これにより、無関係な触覚による干渉を避けつつ、適応的なマルチモーダル融合が可能になります。融合された視覚・言語・触覚トークンは、トランスフォーマーのアーキテクチャ内で共同で処理され、接触が多い相互作用におけるクロスモーダルな基盤づけ(grounding)を強化します。拘束ロック式の分解、インボックスでのピッキング、頑健性評価に関する大規模な実験により、本モデルがベースラインを上回り、分解では成功率を平均20%向上、インボックスでのピッキングでは60%向上、さらに視覚の遮蔽がある状況では2.1倍の改善を達成することが示されます。動画は https://sites.google.com/view/tacvla で利用可能で、コードは公開されます。