THOM:テキストから物理的にもっともらしい手-物体メッシュを生成する

arXiv cs.CV / 2026/4/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • THOMは、巧緻なロボット把持やVR/ARコンテンツ制作のニーズを対象とし、テキストから直接3Dの手-物体インタラクション(HOI)メッシュを生成する、訓練不要のフレームワークである。
  • 2段階のパイプラインを採用し、まずテキストから手と物体のガウシアンを生成し、その後それらのガウシアンからメッシュを抽出した上で、物理ベースのHOI最適化を行う。
  • 新しいメッシュ抽出手法と、メッシュ頂点からガウシアンへの対応付け(vertex-to-Gaussian mapping)を導入する。これにより、ガウシアン要素をメッシュ頂点に割り当て、トポロジーを考慮した正則化を可能にする。
  • インタラクションのもっともらしさを高めるため、THOMは物理最適化の際に、VLM(視覚言語モデル)に導かれた並進のリファインメントと接触を考慮した最適化を追加する。
  • 論文の実験結果では、THOMはテキスト整合、視覚的リアリティ、インタラクションのもっともらしさの各面で、既存手法よりも優れていることが示されている。

Abstract

テキストから3Dの手-物体相互作用(HOI)を生成することは、器用なロボットによる把持やVR/ARコンテンツ生成にとって重要であり、高い視覚的忠実性と物理的な妥当性の両方が求められます。それにもかかわらず、テキスト生成ガウシアンからのメッシュ抽出という不適切問題と、誤ったメッシュ上での物理ベースの最適化は課題となります。これらの問題に対処するために、テンプレートとなる物体メッシュを必要としない、学習不要(training-free)の枠組みであるTHOMを提案します。THOMは、物理的にもっともらしい3D HOIメッシュを、写真的な見た目で生成し、訓練を必要としません。THOMは2段階のパイプラインを採用し、まず手と物体のガウシアンを生成し、その後に物理ベースのHOI最適化を行います。新しいメッシュ抽出手法と、頂点からガウシアンへのマッピングは、ガウシアン要素をメッシュの頂点に明示的に割り当て、トポロジーを意識した正則化を可能にします。さらに、VLM(視覚言語モデル)による並進の精緻化と、接触を意識した最適化によって相互作用の物理的妥当性を向上させます。包括的な実験により、THOMがテキストとの整合性、視覚的リアリズム、相互作用の妥当性の観点で、常に最先端手法を上回ることが示されます。