ViTaPEs:マルチモーダルトランスフォーマにおけるクロスモーダル整合のための触覚・視覚位置エンコーディング

arXiv cs.CV / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚と触覚のペア入力からタスク非依存のマルチモーダル表現を学習するための、トランスフォーマ型手法ViTaPEsを提案する。
  • ViTaPEsは、各ストリーム内にモダリティ固有の位置エンコーディングを加え、さらに注意の直前に結合トークン列へグローバル位置エンコーディングを加えることで、クロスモーダルな空間推論を強化する。
  • 位置情報の注入タイミング(トークンごとの非線形の前か、自身の注意の直前か)を、制御されたアブレーションにより切り分けて検証している。
  • 複数の大規模な実世界データセットでの実験により、ViTaPEsが各種認識タスクで従来の最先端ベースラインを上回り、未見のアウト・オブ・ドメイン環境でもゼロショットで汎化できることが示される。
  • さらに、ロボティクスの把持タスクでも有効性が示され、把持成功をより正確に予測して最先端手法より高い性能を達成する。

要旨: tactile sensing(触覚センシング)は、テクスチャ、コンプライアンス、力など、視覚知覚を補完する局所的に不可欠な情報を提供する。近年の視触覚表現学習の進歩にもかかわらず、これらのモダリティを融合し、重い事前学習済みの視覚-言語モデルへの依存なしに、タスクや環境をまたいで一般化することには依然として課題が残っている。さらに、既存手法は位置エンコーディングを研究していないため、微細な視触覚の相関を捉えるのに必要な多段階の空間推論を見落としている。そこで我々は、ペアとなる視覚入力と触覚入力から、タスクに依存しない視触覚表現を学習するための、トランスフォーマーに基づくアーキテクチャであるViTaPEsを提案する。我々の主要なアイデアは二段階の位置注入である。すなわち、局所的(モダリティ固有の)位置エンコーディングを各ストリーム内に追加し、その直後に注意を行う直前、結合トークン列にグローバルな位置エンコーディングを追加することである。これにより、クロスモーダル相互作用が起きる段階において、共有された位置の語彙が提供される。我々は位置注入の位置を明示し、トークンごとの非線形性の直後と自己注意の直前の双方でそれらの効果を切り分ける制御されたアブレーションを行う。複数の大規模な実世界データセットに対する実験の結果、ViTaPEsは様々な認識タスクにおいて最先端のベースラインを上回るだけでなく、未見の領域外シナリオに対するゼロショット一般化も示した。さらに、ロボットの把持タスクにおける extit{ViTaPEs}の転移学習の強みも実証する。そこでは、把持の成功を予測する上で、最先端のベースラインよりも優れている。プロジェクトページ: https://sites.google.com/view/vitapes