ABot-PhysWorld:物理整合を備えたロボット操作のためのインタラクティブ世界基盤モデル
arXiv cs.RO / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ABot-PhysWorldは、尤度のみではなく、物理的に整合しない出力を抑えることを目的とした、物理的に妥当で視覚的に現実的、かつアクション制御可能なロボット操作動画を生成するための14Bディフュージョン・トランスフォーマーのビデオ世界モデルである。
- このモデルは、物理を意識した注釈付きの、厳選された操作クリップ300万本のデータセットで学習されており、DPOベースの事後学習(ポストトレーニング)と、識別器を分離した構成により、不自然な(非物理的な)挙動を抑えつつ視覚品質を維持する。
- 空間的なアクション注入を精密に行える並列コンテキストブロックを備えており、身体(エンボディメント)の違いをまたいだ制御(クロス・エンボディメント・コントロール)を可能にする。
- 著者らは、物理的な現実性の評価とアクション整合の評価を分離する、学習に依存しない(training-independent)身体性ゼロショット・ベンチマーク「EZSbench」を導入している。分離プロトコルにより、物理的リアリズムとアクションの整合性を別々に評価し、実世界と合成の両方にまたがる、未見のタスク—シーンの組み合わせを対象としている。
- ABot-PhysWorldは、PBenchおよびEZSbenchで新たな最先端(state-of-the-art)の結果を報告しており、物理的妥当性と軌道整合性の観点でVeo 3.1およびSora v2 Proより改善したと主張している。また、標準化された評価のためにEZSbenchを公開する計画がある。




