触覚モデルの学習方法：多指ロボットハンドによる触覚知覚

arXiv cs.RO / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多指ロボットハンドにおける触覚センシングのスケーラビリティ問題を扱っている。現在、接触特性の推論は、大規模でセンサ固有のデータセットで訓練したCNNに依存している。
本研究では、TacViTというビジョントランスフォーマー（Vision Transformer）ベースの触覚知覚モデルを提案する。これは、グローバル自己注意によって特徴を学習し、レンズの特性、照明条件、摩耗の違いがあっても触覚センサ間で汎化できるようにする。
このモデルは、5本指ロボットハンド向けの触覚センサで評価され、分布外（out-of-distribution）なセンサへの汎化においてCNNベースの手法より優れていることが報告されている。
新しい触覚センサを導入する際にデータ収集や再学習の必要性を減らすことで、TacViTは、実世界のロボット操作ワークフローを加速することを目指している。

要旨: 新しい触覚センサーの迅速な展開は、特に視覚ベースの触覚センサーを備えた多指ハンドにおいて、スケーラブルなロボットマニピュレーションに不可欠です。しかし、接触特性を推定するための現在の手法は、大きくは畳み込みニューラルネットワーク（CNN）に依存しています。CNNは既知のセンサーでは有効ですが、大規模でセンサー固有のデータセットを必要とします。さらに、レンズ特性、照明、センサーの摩耗の違いにより、各新しいセンサーごとに再学習が必要です。ここでは、新しいセンサーデータに対して汎化することを目的としたVision Transformersに基づく新しい触覚知覚モデル「TacViT」を提案します。TacViTは、触覚画像から頑健な特徴を抽出するためにグローバル自己注意（self-attention）機構を活用し、これまでに見たことのないセンサー上でも正確に接触特性推定を可能にします。この能力により、データ収集や再学習の必要性が大幅に減り、新しいセンサーの展開が加速されます。5指ロボットハンド用のセンサーに対してTacViTを評価し、CNNと比較して優れた汎化性能を示します。本結果は、TacViTが触覚センシングをよりスケーラブルで、実世界のロボット応用において実用的にする可能性を示しています。