要旨: 時間的アクションセグメンテーション(TAS)は、ロボティクスとコンピュータビジョンの両方において、長年にわたり重要な研究領域である。ロボティクスでは、アルゴリズムは主として、固有感覚情報を活用してスキルの境界を特定することに焦点を当ててきたが、近年の外科ロボティクスのアプローチではビジョンを取り入れている。これとは対照的に、コンピュータビジョンは通常、カメラなどの外受容センサに依存する。ロボティクスにおける既存のマルチモーダルTASモデルは、特徴融合をモデル内で行うため、学習した特徴を異なるモデル間で再利用することが難しい。一方で、コンピュータビジョンで一般的に用いられる、事前学習済みの視覚のみの特徴抽出器は、物体の視認性が限られる状況ではうまく機能しない。本研究では、TASのために調整されたマルチモーダル特徴抽出器M2R2を提案することで、これらの課題に対処する。M2R2は、固有感覚センサと外受容センサの両方からの情報を組み合わせる。さらに、学習した特徴を複数のTASモデル間で再利用できるようにする、新しい学習戦略を導入する。本手法は、3つのロボットデータセットREASSEMBLE、(Im)PerfectPour、JIGSAWSにおいて新たな最先端の性能を達成する。加えて、ロボティクスのTASタスクにおける異なるモダリティの寄与を評価するため、広範なアブレーション研究を行う。
M2R2:時間的アクションセグメンテーションのためのマルチモーダル・ロボティック表現
arXiv cs.RO / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自己受容(ロボット状態)と外受容(視覚などのセンサ)情報を同時に用いる、時間的アクションセグメンテーション(TAS)向けのマルチモーダル特徴抽出器M2R2を提案している。
- 従来のマルチモーダル手法がモデル内で特徴融合を行い学習済み特徴の再利用が難しいという課題に対し、複数のTASモデル間で学習済み特徴を再利用できる新しい学習戦略を提示している。
- REASSEMBLE、(Im)PerfectPour、JIGSAWSの3つのロボティックデータセットで新たな最先端(SOTA)性能を達成したと報告している。
- ロボティックTASにおける各モダリティの寄与を評価するため、広範なアブレーションスタディも実施している。
- 視覚系の事前学習特徴抽出器は対象物の見えが限られる状況で性能が低下し得る一方で、M2R2はそれを緩和することを狙っている。