Sculpt4D:スパース・アテンションによる拡散トランスフォーマーで4D形状を生成する

arXiv cs.CV / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文では、時間的アーティファクトや計算コストの高さによって難しかった高精度な動的4D生成を目的に、Sculpt4Dを提案する。
  • Sculpt4Dは、事前学習済みの3D拡散トランスフォーマー(Hunyuan3D 2.1)に効率的な時間モデリングを統合し、4D学習データの不足への依存を下げる。
  • ブロック・スパース・アテンションにより、生成を最初のフレームにアンカーして物体の同一性を維持しつつ、時間減衰するスパースマスクで運動ダイナミクスを捉える。
  • 全アテンションの二乗オーバーヘッドを回避し、ネットワーク全体の計算量を56%削減しながら、時間的に整合性の高い4D合成で最先端の結果を達成する。
  • 総じて、Sculpt4Dはスケーラブルな高品質4D生成に向けた計算効率の高い道筋を示す。

Abstract

3D生成モデリングにおける最近のブレークスルーは、静的形状の合成において目覚ましい進歩をもたらしましたが、高精細な動的4D生成はなお達成が困難です。これは、時間的アーティファクトによって妨げられ、さらに計算コストが過大であることが原因です。私たちは、Sculpt4Dを提案します。これは、事前学習済みの3D Diffusion Transformer(Hunyuan3D 2.1)に効率的な時間モデリングをシームレスに統合するネイティブな4D生成フレームワークであり、4Dの学習データ不足を緩和します。その中核には、最初のフレームにアンカーすることで対象物の同一性を保持しつつ、時間減衰する疎マスクによって豊かなモーションダイナミクスを捉えるBlock Sparse Attention機構があります。この設計により、高い忠実度で複雑な時空間の依存関係を忠実にモデル化しながら、フル・アテンションの二次的オーバーヘッドを回避し、ネットワーク全体の計算量を56%削減します。その結果、Sculpt4Dは時間的に整合性のある4D合成における新たな最先端を確立し、効率的でスケーラブルな4D生成への道筋を示します。