Physion-Eval: 人間の推論を用いた生成動画の物理的現実性の評価

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Physion-Eval は、5つの最先端モデルが生成した動画における物理的現実性の欠陥を、エゴセントリック視点とエクソセントリック視点の両方で診断する専門家の人間推論を用いた大規模なベンチマークを導入し、22の細粒度カテゴリにまたがる10,990の推論痕跡を提供します。
生成された各動画には対応する現実世界の参照が対になされ、時間的に局所化されたグリッチ、構造化された欠陥カテゴリ、および違反した物理挙動の自然言語での説明が付与されています。
本研究は、物理的に重要なシナリオにおいて、エクソセントリック視点で生成された動画の83.3%、エゴセントリック視点で生成された動画の93.5%が、少なくとも1つの人間が識別できる物理的グリッチを示すことを明らかにしました。
このベンチマークは、自動指標や粗い判断の限界を、物理的制約に関する人間の推論に焦点を当てることで克服し、物理に根ざした動画生成の開発を導くことを目指しています。
Physion-Eval データセットは HuggingFace で公開されており、研究者が物理的に現実的な動画生成をベンチマークし、進展させることができます。

要旨:
動画生成モデルは、物語の語り、シミュレーション、具現化型AIの世界シミュレーターとして、ますます広く使われています。これらのモデルが進化するにつれて、重要な問いが浮かびます。生成された動画は現実世界の物理法則に従うのか？
既存の評価は主に自動化された指標や、好みやルーブリックに基づく評価といった粗い人間判断に依存しています。知覚品質を評価するには有用ですが、これらの方法は生成されたダイナミクスがいつ、なぜ現実世界の物理制約に違反するのかについて、限られた洞察しか提供しません。私たちは Physion-Eval を導入します。これは、先端的な5つのモデルによって生成された動画の物理リアリズムの欠陥を診断するための専門家による推論を大規模に収集したベンチマークです。自視点と外視点の両方にまたがる、22の細分化された物理カテゴリにまたがる10,990件の専門家推論の痕跡を含みます。生成された各動画は、明確な物理過程を描く対応する実世界の参照動画から派生しており、時系列的に局在化したグリッチ、構造化された故障カテゴリ、および逸脱した物理挙動の自然言語での説明が付与されています。
このデータセットを用いて、現在の動画生成モデルの顕著な限界を明らかにします。物理的に重要なシナリオでは、外視点の生成動画の83.3%、自視点の生成動画の93.5%が、少なくとも1つの人間に識別可能な物理的グリッチを示します。私たちは Physion-Eval が物理リアリズム評価の新たな基準を確立し、物理に基づく動画生成の開発を導くことを期待しています。このベンチマークは以下で公開されています: https://huggingface.co/datasets/PhysionLabs/Physion-Eval.