KitchenTwin:意味論的かつ幾何学的に基盤づけられた3Dキッチン・デジタルツイン

arXiv cs.CV / 2026/3/27

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、3Dキッチン・デジタルツインにおける重要な制約として、モノクロ動画に基づくトランスフォーマ型のグローバル点群予測がメートル単位のスケールと一貫した座標を欠くため、ローカルで再構成したオブジェクトメッシュとの融合が信頼できない点を扱う。
  • 実世界のメートル単位のスケールを復元し、座標の不整合を解消するために、VLMに導かれた幾何学的アンカリング機構を用いる、スケール対応型の3D融合フレームワークを提案する。
  • 幾何学に配慮した登録(レジストレーション)パイプラインにより、重力方向を揃えて鉛直推定を行い、マンハッタンワールドの構造制約を適用し、衝突のないローカルなリファインメントを実行することで、物理的妥当性を担保する。
  • 実際の屋内キッチンシーンでの実験により、オブジェクトの位置合わせと幾何学的整合性が向上し、多段のタスク(多プリミティブ適合やメートル単位の計測など)に恩恵をもたらす。
  • 著者らはさらに、メートル単位でスケールされたシーンを含み、意味論に基づき登録されたオブジェクト中心のメッシュ注釈を備える、オープンソースの屋内デジタルツイン・データセットも公開する。

概要: 身体化されたAIのトレーニングと評価には、正確な計量幾何とセマンティックな基底づけを備えた、オブジェクト中心のデジタルツイン環境が必要です。近年、トランスフォーマーに基づくフィードフォワード再構成手法により、疎な単眼動画からグローバルなポイントクラウドを効率的に予測できます。しかし、これらの幾何は本質的なスケールの曖昧性と、座標規約の不整合により影響を受けます。この不一致により、無次元のポイントクラウド予測を、局所的に再構成したオブジェクトメッシュと信頼性高く融合することができません。そこで我々は、視覚的に基底づけられたオブジェクトメッシュを、トランスフォーマーによって予測されたグローバルなポイントクラウドに登録し、計量的に一貫したデジタルツインを構築する、新しいスケールに配慮した3D融合フレームワークを提案します。本手法では、現実世界の計量スケールを正確に復元することで、この根本的な座標不一致を解決する、Vision-Language Model(VLM)に導かれた幾何学的アンカー機構を導入します。これらのネットワークを融合するために、重力に整合した垂直推定、マンハッタンワールドの構造制約、衝突のない局所的なリファインメントによって、物理的な妥当性を明示的に強制する、幾何に配慮した登録パイプラインを提案します。実環境の屋内キッチン環境での実験により、マルチプリミティブのフィッティングや計量計測を含む下流タスクにおいて、ネットワーク間のオブジェクト整合と幾何学的一貫性が向上することを示します。さらに、計量スケールされたシーンと、セマンティックに基底づけられ登録されたオブジェクト中心のメッシュ注釈を備えた、オープンソースの屋内デジタルツインデータセットも新たに提供します。