THOM:テキストから物理的にもっともらしい手-物体メッシュを生成する
arXiv cs.CV / 2026/4/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- THOMは、巧緻なロボット把持やVR/ARコンテンツ制作のニーズを対象とし、テキストから直接3Dの手-物体インタラクション(HOI)メッシュを生成する、訓練不要のフレームワークである。
- 2段階のパイプラインを採用し、まずテキストから手と物体のガウシアンを生成し、その後それらのガウシアンからメッシュを抽出した上で、物理ベースのHOI最適化を行う。
- 新しいメッシュ抽出手法と、メッシュ頂点からガウシアンへの対応付け(vertex-to-Gaussian mapping)を導入する。これにより、ガウシアン要素をメッシュ頂点に割り当て、トポロジーを考慮した正則化を可能にする。
- インタラクションのもっともらしさを高めるため、THOMは物理最適化の際に、VLM(視覚言語モデル)に導かれた並進のリファインメントと接触を考慮した最適化を追加する。
- 論文の実験結果では、THOMはテキスト整合、視覚的リアリティ、インタラクションのもっともらしさの各面で、既存手法よりも優れていることが示されている。