TouchAnything:拡散誘導による疎なロボット触覚接触からの3D再構成

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • TouchAnythingは、ロボットから得られる疎な触覚接触計測のみを用いて、正確な3D物体形状を推定するための拡散誘導フレームワークとして提示される。視界の遮蔽や照明条件の不良によるビジョンの限界に対処する。
  • 本手法は、カテゴリ固有の触覚再構成ネットワークや触覚データ上で直接拡散モデルを学習するのではなく、大規模な2D視覚拡散モデルで事前学習された幾何学的および意味的な事前知識を触覚ドメインへ転移する。
  • 再構成は、疎な触覚制約との整合性を強制しつつ、拡散事前知識と一致する形状へ解を誘導することで最適化問題として定式化される。
  • 著者らは、既存のベースラインに比べて再構成精度が向上すると報告し、粗いクラスレベルの説明に基づいて、これまで未見の物体インスタンスに対するオープンワールドな3D再構成が可能であると主張している。

Abstract

正確な物体ジオメトリ推定は、ロボットによる操作や物理的な相互作用など、多くの下流タスクにとって不可欠です。形状知覚において視覚が主要なモダリティであるにもかかわらず、遮蔽や困難な照明条件下では信頼性が低下します。このような状況では、触覚センシングが物理的接触を通じて直接的な幾何情報を提供します。しかし、疎な局所タッチのみからグローバルな3Dジオメトリを再構成することは、本質的に不十分(underconstrained)で、制約が足りない問題です。本研究では、TouchAnything という枠組みを提案します。これは、事前学習済みの大規模2Dビジョン拡散モデルを、疎な触覚計測からの3D再構成における意味的および幾何学的な事前知識(prior)として活用します。従来研究が、カテゴリ固有の再構成ネットワークを訓練したり、触覚データそのものから拡散モデルを学習したりするのに対し、本手法は、事前学習済みの視覚拡散モデルに符号化された幾何学的知識を触覚ドメインへと転移します。疎な接触制約と、物体に関する粗いクラスレベルの記述が与えられるもとで、再構成を最適化問題として定式化し、触覚の整合性を強制しつつ、拡散事前知識と整合的な形状へ解を導きます。本手法は、わずか数回のタッチだけから正確なジオメトリを再構成し、既存のベースラインを上回り、これまで見たことのない物体インスタンスに対するオープンワールドな3D再構成を可能にします。本プロジェクトのページは https://grange007.github.io/touchanything です。