クロスモーダル・視覚触覚による物体知覚
arXiv cs.RO / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚と触覚の両方のセンシングを用いて、接触が豊富なロボット操作における物体の物理的性質を推定する手法「Cross-Modal Latent Filter(CMLF)」を提案する。
- CMLFは、物体の性質に関する構造化された因果的潜在状態空間を学習し、純粋な静的アライメントや強引な融合に頼るのではなく、時系列で信念を更新するためのベイズ推論を行う。
- 視覚と触覚の間で事前分布(prior)の双方向な転移を可能にし、非剛体の変形や非線形な接触摩擦のような、不確実性やモデル化が難しい影響への対処を助ける。
- 実環境でのロボット実験により、不確実性下における潜在的な物理特性推定の効率と頑健性が、基準となる手法よりも改善されることが示される。
- さらに、このモデルは、クロスモーダル・イリュージョン(錯覚)への影響を受けやすいといった、人間の知覚的な結合現象や、感覚モダリティ間で比較可能な学習軌跡も示す。




