広告

ABot-PhysWorld:物理整合を備えたロボット操作のためのインタラクティブ世界基盤モデル

arXiv cs.RO / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ABot-PhysWorldは、尤度のみではなく、物理的に整合しない出力を抑えることを目的とした、物理的に妥当で視覚的に現実的、かつアクション制御可能なロボット操作動画を生成するための14Bディフュージョン・トランスフォーマーのビデオ世界モデルである。
  • このモデルは、物理を意識した注釈付きの、厳選された操作クリップ300万本のデータセットで学習されており、DPOベースの事後学習(ポストトレーニング)と、識別器を分離した構成により、不自然な(非物理的な)挙動を抑えつつ視覚品質を維持する。
  • 空間的なアクション注入を精密に行える並列コンテキストブロックを備えており、身体(エンボディメント)の違いをまたいだ制御(クロス・エンボディメント・コントロール)を可能にする。
  • 著者らは、物理的な現実性の評価とアクション整合の評価を分離する、学習に依存しない(training-independent)身体性ゼロショット・ベンチマーク「EZSbench」を導入している。分離プロトコルにより、物理的リアリズムとアクションの整合性を別々に評価し、実世界と合成の両方にまたがる、未見のタスク—シーンの組み合わせを対象としている。
  • ABot-PhysWorldは、PBenchおよびEZSbenchで新たな最先端(state-of-the-art)の結果を報告しており、物理的妥当性と軌道整合性の観点でVeo 3.1およびSora v2 Proより改善したと主張している。また、標準化された評価のためにEZSbenchを公開する計画がある。

Abstract

動画ベースのワールドモデルは、身体性を備えたシミュレーションと計画のための強力なパラダイムを提供しますが、最先端のモデルはしばしば、一般的な視覚データでの学習と、物理法則を無視する尤度ベースの目的関数のために、物理的に不自然な操作(たとえば物体の貫通や反重力的な運動)を生成します。私たちは、視覚的に現実的で、物理的に妥当で、かつアクションを制御可能な動画を生成する14BのDiffusion TransformerモデルであるABot-PhysWorldを提案します。物理に配慮したアノテーション付きの、3百万本の操作クリップからなる厳選データセットを基盤としており、視覚品質を維持しつつ非物理的なふるまいを抑制するために、デカップルされた判別器を用いた新しいDPOベースのポストトレーニング枠組みを採用しています。並列なコンテキストブロックにより、クロス・エンボディメント制御のための精密な空間的アクション注入が可能になります。汎化性能をより適切に評価するために、学習に依存しない最初の、身体性を備えたゼロショットベンチマークであるEZSbenchを導入します。これは、実世界と合成の、未見のロボットのタスク・シーンの組み合わせを統合したものです。物理的な現実性とアクションの整合性をそれぞれ別個に評価するための、デカップルされたプロトコルを採用しています。ABot-PhysWorldは、PBenchおよびEZSbenchにおいて新たな最先端の性能を達成し、物理的な妥当性と軌道の一貫性の面でVeo 3.1およびSora v2 Proを上回ります。身体性を備えた動画生成における標準化された評価を促進するために、EZSbenchを公開します。

広告