KitchenTwin：意味論的かつ幾何学的に基盤づけられた3Dキッチン・デジタルツイン

arXiv cs.CV / 2026/3/27

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、3Dキッチン・デジタルツインにおける重要な制約として、モノクロ動画に基づくトランスフォーマ型のグローバル点群予測がメートル単位のスケールと一貫した座標を欠くため、ローカルで再構成したオブジェクトメッシュとの融合が信頼できない点を扱う。
実世界のメートル単位のスケールを復元し、座標の不整合を解消するために、VLMに導かれた幾何学的アンカリング機構を用いる、スケール対応型の3D融合フレームワークを提案する。
幾何学に配慮した登録（レジストレーション）パイプラインにより、重力方向を揃えて鉛直推定を行い、マンハッタンワールドの構造制約を適用し、衝突のないローカルなリファインメントを実行することで、物理的妥当性を担保する。
実際の屋内キッチンシーンでの実験により、オブジェクトの位置合わせと幾何学的整合性が向上し、多段のタスク（多プリミティブ適合やメートル単位の計測など）に恩恵をもたらす。
著者らはさらに、メートル単位でスケールされたシーンを含み、意味論に基づき登録されたオブジェクト中心のメッシュ注釈を備える、オープンソースの屋内デジタルツイン・データセットも公開する。

概要: 身体化されたAIのトレーニングと評価には、正確な計量幾何とセマンティックな基底づけを備えた、オブジェクト中心のデジタルツイン環境が必要です。近年、トランスフォーマーに基づくフィードフォワード再構成手法により、疎な単眼動画からグローバルなポイントクラウドを効率的に予測できます。しかし、これらの幾何は本質的なスケールの曖昧性と、座標規約の不整合により影響を受けます。この不一致により、無次元のポイントクラウド予測を、局所的に再構成したオブジェクトメッシュと信頼性高く融合することができません。そこで我々は、視覚的に基底づけられたオブジェクトメッシュを、トランスフォーマーによって予測されたグローバルなポイントクラウドに登録し、計量的に一貫したデジタルツインを構築する、新しいスケールに配慮した3D融合フレームワークを提案します。本手法では、現実世界の計量スケールを正確に復元することで、この根本的な座標不一致を解決する、Vision-Language Model（VLM）に導かれた幾何学的アンカー機構を導入します。これらのネットワークを融合するために、重力に整合した垂直推定、マンハッタンワールドの構造制約、衝突のない局所的なリファインメントによって、物理的な妥当性を明示的に強制する、幾何に配慮した登録パイプラインを提案します。実環境の屋内キッチン環境での実験により、マルチプリミティブのフィッティングや計量計測を含む下流タスクにおいて、ネットワーク間のオブジェクト整合と幾何学的一貫性が向上することを示します。さらに、計量スケールされたシーンと、セマンティックに基底づけられ登録されたオブジェクト中心のメッシュ注釈を備えた、オープンソースの屋内デジタルツインデータセットも新たに提供します。

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

Dev.to

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

KitchenTwin：意味論的かつ幾何学的に基盤づけられた3Dキッチン・デジタルツイン

要点

関連記事

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer