OccDirector:4次元占有空間における言語誘導の行動・相互作用生成

arXiv cs.CV / 2026/4/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、自然言語の条件付けだけで4D占有ダイナミクスを生成する、生成世界モデル用のフレームワーク「OccDirector」が提案されています。
  • OccDirectorは「シナリオ監督」として機能し、明示的な軌道などの幾何学的事前条件なしで、言語スクリプトを物理的に妥当なボクセル時空行動へと写像します。
  • VLMに駆動されたSpatio-Temporal MMDiTに、長期の相互作用整合性を保つためのhistory-prefix anchoring戦略を組み合わせています。
  • 新データセット「OccInteract-85k」(静的レイアウトから複雑なマルチエージェント行動まで段階的に言語指示を注釈)と、VLMベースの評価ベンチマークを公開し、生成品質と指示追従の両面で最先端の結果が示されています。
  • 外見の合成中心から、言語による行動のオーケストレーション(連続的な相互作用の調整)へとパラダイムを転換することを意図しています。