PhysInOne:1つのスイートで実現する視覚的な物理学学習と推論

arXiv cs.RO / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • PhysInOneは、AIシステムにおける物理的に根拠づけられた学習データの不足に対処するために設計された、大規模な合成データセットとして紹介されます。
  • このデータセットには、71の力学/光学/流体力学/磁気に関する現象にまたがる153,810の動的3Dシーンに対し、合計200万本の動画が含まれており、3D幾何、セマンティクス、運動、物理特性、テキストに至るまでの広範なグラウンドトゥルース注釈が付与されています。
  • 著者らは、より単純で小規模な物理データセットを超えるために、多対象の相互作用や複雑な背景に焦点を当てている点を強調しています。
  • PhysInOneは、物理を意識した動画生成、将来フレーム予測、物理的性質の推定、モーション転送の4つの応用領域で評価されており、基盤モデルのファインチューニングにより物理的な妥当性が向上します。
  • 実験では、複雑なダイナミクスや固有の性質の推定に関して、現行モデルに限界があることも明らかになり、PhysInOneは物理に根ざしたワールドモデルの新たなベンチマークとして位置づけられます。

Abstract

We present PhysInOne, a large-scale synthetic dataset addressing the critical scarcity of physically-grounded training data for AI systems. Unlike existing datasets limited to merely hundreds or thousands of examples, PhysInOne provides 2 million videos across 153,810 dynamic 3D scenes, covering 71 basic physical phenomena in mechanics, optics, fluid dynamics, and magnetism. Distinct from previous works, our scenes feature multiobject interactions against complex backgrounds, with comprehensive ground-truth annotations including 3D geometry, semantics, dynamic motion, physical properties, and text descriptions. We demonstrate PhysInOne's efficacy across four emerging applications: physics-aware video generation, long-/short-term future frame prediction, physical property estimation, and motion transfer. Experiments show that fine-tuning foundation models on PhysInOne significantly enhances physical plausibility, while also exposing critical gaps in modeling complex physical dynamics and estimating intrinsic properties. As the largest dataset of its kind, orders of magnitude beyond prior works, PhysInOne establishes a new benchmark for advancing physics-grounded world models in generation, simulation, and embodied AI.