LEXIS:画像からの3D HOIにおける潜在近接相互作用シグネチャ

arXiv cs.CV / 2026/4/23

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、画像1枚から3Dの人-物体相互作用(HOI)を再構成する新手法(LEXIS)を提案し、身体と物体の間にある連続的な物理的結合をモデル化します。
  • 「InterFields」と呼ばれる、身体・物体表面全体にわたる密な連続的近接表現を導入し、VQ-VAEにより相互作用を特徴づける構造化された離散的シグネチャのマニフォールドを学習します。
  • これらのシグネチャを活用して、拡散ベースの枠組みであるLEXIS-Flowを開発し、人と物体のメッシュとInterFieldsを同時に推定します。
  • InterFieldsにより、事後的な最適化を必要とせずに、ガイド付きリファインメントで物理的に妥当で近接を意識した再構成が可能になります。
  • Open3DHOIおよびBEHAVEでの実験では、再構成・接触・近接の各品質において既存の最先端ベースラインより大幅に優れていることが報告され、コード/モデルは公開予定です。

Abstract

RGB画像から3Dの人-物体相互作用を再構成することは、知覚システムにとって不可欠です。しかしこれは、身体と物体の間の微妙な物理的結合を捉える必要があるため、依然として難題です。現在の手法は疎で二値的な接触の手がかりに依存しているものの、これでは自然な相互作用を特徴づける連続的な近接や密な空間関係をモデル化できません。私たちはこの限界を、身体全体と物体表面にわたる密で連続的な近接を符号化する表現であるInterFieldsによって解決します。しかし、単一画像からこれらのフィールドを推論することは本質的に不適切な問題です。そこで私たちの直観は、相互作用のパターンが、その動作と物体の幾何によって特徴的に構造化されるという点にあります。この構造を、VQ-VAEを通じて学習した相互作用シグネチャのための新しい離散多様体であるLEXISで捉えます。次に、LEXIS-Flowという拡散フレームワークを開発し、LEXISシグネチャを活用することで、人と物体のメッシュとそれらのInterFieldsを同時に推定します。特に、これらのInterFieldsは、事後の最適化を必要とせずに、物理的に妥当で、近接を意識した再構成を行うためのガイド付きな改良に役立ちます。Open3DHOIとBEHAVEでの評価では、LEXIS-Flowが再構成、接触、近接の品質において既存の最先端(SotA)ベースラインを大きく上回ることが示されました。私たちのアプローチは一般化を向上させるだけでなく、より現実的だと知覚される再構成をもたらし、ホリスティックな3Dシーン理解に一歩近づきます。コードとモデルは https://anticdimi.github.io/lexis で公開予定です。