いつ見るべきか、いつ感じるべきかを学ぶ：接触を意識したアダプティブ・ビジョン-トルク融合による操作

arXiv cs.RO / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、拡散ベースのロボット操作ポリシーにおいて、視覚と力／トルク（F/T）信号をどのように融合するかを研究し、視覚だけでは不十分な接触の多いタスクに焦点を当てる。
複数の既存の統合戦略（補助的な予測目的、mixture-of-experts、接触を意識したガーティングなど）を比較し、それぞれの有効性を相対的に評価する。
著者らは、非接触フェーズではF/T入力を抑制し、接触時には視覚とトルク情報の両方を用いることで切り替える、アダプティブな融合手法を提案する。
実験の結果、提案手法は最も強いベースラインに比べて成功率を14%向上させることが示され、接触を意識したマルチモーダル融合の価値が裏付けられる。
全体として、本研究はF/T-視覚融合設計に関するベンチマーク的な比較と、接触を意識した操作を改善するための実用的なアーキテクチャ上のアイデアの両方を提供する。