SIMART:MLLMによりモノリシックメッシュをSIM対応の関節型アセットへ分解する

arXiv cs.RO / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、身体性のあるAIや物理シミュレーションにとって、関節(アーティキュレート)されたSIM対応3Dアセットが重要である一方で、現在の3D生成はシミュレーションで使用できるインタラクティブなオブジェクトではなく、静的メッシュを生成することが主であると主張する。
  • その解決として、SIMARTは単一段の統一MLLMアプローチを提案し、パート単位の分解と運動学(キネマティクス)の予測を同時に行うことで、複数モジュールのパイプラインによる誤差の蓄積を回避する。
  • スケーラビリティを高めるために、SIMARTはSparse 3D VQ-VAEを用いて、密なボクセルによるトークン化と比べて3Dトークン数を70%削減し、メモリ使用量を抑え、多パートのアセンブリを可能にする。
  • SIMARTは、PartNet-Mobilityおよび「in-the-wild」なAIGCデータセットにおいて最先端の結果を達成したと報告され、物理ベースのロボットシミュレーションにも対応している。

Abstract

高品質な関節付き3Dアセットは、身体性のあるAIや物理シミュレーションに不可欠ですが、3D生成はいまだ静的メッシュに焦点が当てられており、「シミュレーションに適した」インタラクティブなオブジェクトの間にギャップがあります。関節付きオブジェクトの作成に関する最新手法の多くは、分離されたモジュール間で誤差が蓄積していくマルチステージのパイプラインに依存しています。代わりに、統合型のMLLMは、静的アセットの理解と、シミュレーションに適したアセット生成を同時に行う単一ステージの道筋を提供します。しかし、密なボクセルベースの3Dトークン化は、長い3Dトークン系列と高いメモリ負荷をもたらし、複雑な関節付きオブジェクトへのスケーラビリティを制限します。これに対処するため、我々はSIMARTを提案します。SIMARTは、パートレベルの分解と運動学的予測を共同で行う統合MLLMフレームワークです。Sparse 3D VQ-VAEを導入することで、SIMARTは密なボクセルトークンに対してトークン数を70%削減し、高精細なマルチパートのアセンブリを可能にします。SIMARTはPartNet-Mobilityおよびイン・ザ・ワイルドのAIGCデータセットで最先端の性能を達成し、物理ベースのロボティクス・シミュレーションを可能にします。