クロスモーダル・視覚触覚による物体知覚

arXiv cs.RO / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚と触覚の両方のセンシングを用いて、接触が豊富なロボット操作における物体の物理的性質を推定する手法「Cross-Modal Latent Filter（CMLF）」を提案する。
CMLFは、物体の性質に関する構造化された因果的潜在状態空間を学習し、純粋な静的アライメントや強引な融合に頼るのではなく、時系列で信念を更新するためのベイズ推論を行う。
視覚と触覚の間で事前分布（prior）の双方向な転移を可能にし、非剛体の変形や非線形な接触摩擦のような、不確実性やモデル化が難しい影響への対処を助ける。
実環境でのロボット実験により、不確実性下における潜在的な物理特性推定の効率と頑健性が、基準となる手法よりも改善されることが示される。
さらに、このモデルは、クロスモーダル・イリュージョン（錯覚）への影響を受けやすいといった、人間の知覚的な結合現象や、感覚モダリティ間で比較可能な学習軌跡も示す。

Abstract

物理的特性の推定は、安全かつ効率的な自律ロボットによる操作、特に接触が多い相互作用の際に重要である。このような状況では、視覚と触覚のセンシングが、物体の幾何形状、姿勢、慣性、剛性、そして接触のダイナミクス（スティックスリップ挙動など）に関する補完的な情報を提供する。しかし、これらの特性は間接的にしか観測できず、また常に正確にモデル化できるとは限らない（例えば、非剛体物体の変形が非線形な接触摩擦と結合する場合）。そのため、推定問題は本質的に複雑であり、行動の間を通じて視・触覚のセンシング情報を持続的に活用する必要がある。既存の視・触覚知覚フレームワークは、主として強力なセンサフュージョンや静的なクロスモーダル整合に焦点を当てており、不確実性や、物体特性に関する信念が時間とともにどのように変化するかについての考慮は十分ではない。人間のマルチモーダル知覚と能動推論に着想を得て、我々は物理的物体特性のための、構造化された因果的潜在状態空間を学習するCross-Modal Latent Filter（CMLF）を提案する。CMLFは、視覚と触覚の間でクロスモーダルな事前知識を双方向に転移でき、時間とともに変化するベイズ推論プロセスによって感覚証拠を統合する。実世界のロボット実験により、CMLFは、不確実性下で潜在的な物理特性の推定を、ベースライン手法と比べて効率的かつ頑健に改善することが示される。性能向上に加えて、このモデルは、人間で観察されるのと類似の知覚的結合現象、すなわちクロスモーダル錯覚への感受性や、クロスセンソリな関連付けの学習における類似した軌跡を示す。これらの結果は、ロボットのマルチセンシング知覚に向けた、一般化可能で頑健かつ物理的に整合的なクロスモーダル統合への重要な一歩を構成する。