手の隠蔽下における固有受容と多接触触覚による、物理的に基づいた3D生成的再構成

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、固有受容および多接触の触覚信号を用いて、重度の手による隠蔽下でメートルスケールの非可視(両面視)物体を補完するための、マルチモーダルかつ物理的に根拠づけられた3D生成的再構成手法を提案する。
  • 物体を、姿勢に応じたカメラ整合の符号付き距離場(SDF)として表現し、Structure-VAEによりコンパクトな構造潜在表現を学習した上で、その空間上で条件付きフローマッチング拡散モデルにより分布をモデル化する。
  • 学習は、視覚のみの事前学習段階の後、隠蔽された操作シーンで微調整(finetuning)を行い、可視RGBの証拠、隠蔽/可視性マスク、手の潜在状態、触覚接触情報を条件として用いる。
  • 物理的妥当性を高めるために、手と物体の相互貫通(interpenetration)を減らし、接触制約をより適切に満たすための、物理ベースの目的関数と微分可能なデコーダ誘導(decoder-guidance)を導入する。
  • シミュレーション実験では、隠蔽補完において視覚のみのベースラインに比べて大幅な改善が示され、さらに実際のヒューマノイドロボットへの転移によって手法が検証される。

Abstract

手指の厳しい隠蔽(オクルージョン)の下での、メートルスケールのアモーダル(非視覚依存)な物体再構成と姿勢推定に対して、物理的な根拠に基づくマルチモーダル手法を提案します。視覚のみを頼りにする先行の、隠蔽を考慮した3D生成手法とは異なり、私たちは物理的相互作用の信号を活用します。固有感覚(プロプリオセプション)は、姿勢付けられた手の幾何を与え、複数接触の触覚は、物体表面が存在すべき場所を制約することで、隠蔽領域における曖昧さを減らします。物体の構造は、姿勢に応じた、カメラ整列(カメラアラインド)された符号付き距離場(SDF)として表現し、Structure-VAEによってコンパクトな潜在空間を学習します。この潜在空間の中で、条件付きフローマッチング(flow-matching)拡散モデルを訓練します。まず視覚のみの画像で事前学習し、その後、隠蔽された操作(マニピュレーション)シーンで微調整します。微調整と推論の際には、見えているRGBの証拠、遮蔽物/可視マスク、手の潜在表現、触覚情報を条件として与えます。重要なのは、微調整と推論の間に、物理に基づく目的関数と微分可能なデコーダのガイダンスを組み込むことで、手--物体間のめり込みを減らし、再構成された表面を接触観測と整合させる点です。本手法は、メートル計測に基づき物理的に整合した構造推定を生成するため、既存の2段階再構成パイプラインに自然に組み込めます。そこでは下流のモジュールが幾何を洗練し、外観を予測します。シミュレーション実験では、プロプリオセプションと触覚を追加することで、隠蔽下における完成度が大幅に向上し、視覚のみのベースラインに比べて、正しい現実世界のスケールで物理的に妥当な再構成が得られることを示します。さらに、学習時に用いたものとは異なるエンドエフェクタを備えた実環境のヒューマノイドロボットにモデルを適用し、転移を検証します。