物理的に妥当な動画生成のための事象中心の因果的思考連鎖

arXiv cs.CV / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 本論文は、物理現象を現在のモデルで単一の瞬間として捉える制限を克服し、因果的に連結し動的に進化する事象の連続としてモデル化することで、物理的に妥当な動画生成(PPVG)に取り組んでいる。
  • 物理現象をチェーン・オブ・ソート推論と埋め込み物理制約を用いて基本的事象単位に分解する「物理駆動事象連鎖推論」と、時間的連続性を維持し因果的に一貫した視覚言語プロンプトを生成する「遷移認識型クロスモーダルプロンプティング(TCP)」という2つの新規モジュールを導入。
  • 本手法は大規模言語モデルの常識推論能力を活用しつつ、決定論的な物理公式と事象の遷移を統合して因果進行のモデル化を強化し、現実的な動画シーケンスを生成する。
  • PhyGenBenchおよびVideoPhyのベンチマーク実験により、本フレームワークが多様な物理領域にわたり物理的に妥当な動画生成で既存手法を上回る性能を示すことが実証された。
  • 著者らはPPVG分野のさらなる研究促進と実用化のためにコードの公開を予定している。

計算機科学 > コンピュータビジョンとパターン認識

arXiv:2603.09094 (cs)
[2026年3月10日投稿]

題名:物理的にもっともらしいビデオ生成のための、出来事中心の因果的思考の連鎖

物理的にもっともらしいビデオ生成のための、出来事中心の因果的思考の連鎖という題名の論文を、Zixuan Wang および他6名の著者によってPDFとして表示する
PDFを見る HTML(実験的)
要旨:物理的にもっともらしいビデオ生成(PPVG)は、現実世界の物理現象をモデリングする有望な手段として登場してきた。PPVGには常識的知識の理解が必要であり、ビデオ拡散モデルにとっては依然として課題である。現在のアプローチは、大規模言語モデルの常識推論能力を活用して、物理的概念をプロンプトに埋め込むことが多い。しかし、生成モデルは因果進行をモデル化するための条件付け機構が不足しているため、物理現象をしばしばプロンプトで定義された単一の瞬間として生成してしまう。本論文では、PPVGを「因果的に結びついた出来事の系列であり、かつ動的に変化する出来事の生成」として捉える。このパラダイムを実現するために、我々は2つの主要モジュールを設計する:(1) 物理駆動のイベント連鎖推論。このモジュールは、プロンプトに記述された物理現象を、鎖状(チェーン・オブ・ソート)の思考を用いて複数の基本的な出来事単位へ分解する。因果的曖昧さを緩和するために、推論中に決定論的な因果依存関係を課す拘束として、物理式を埋め込む。(2) 遷移を意識したクロスモーダル・プロンプト(TCP)。出来事間の連続性を維持するために、このモジュールは因果的イベント単位を、時間的に整合した視覚-言語プロンプトへ変換する。離散的な出来事記述を要約して因果的に一貫した物語を得る一方、対話的な編集によって、各出来事の視覚的なキーフレームを段階的に合成する。PhyGenBenchおよびVideoPhyの包括的な実験により、提案フレームワークが多様な物理ドメインにおいて、物理的にもっともらしいビデオを生成する上で優れた性能を達成することを示す。コードは近々公開する予定である。
コメント:
分野: コンピュータビジョンとパターン認識(cs.CV)
引用形式: arXiv:2603.09094 [cs.CV]
  (この版の場合は arXiv:2603.09094v1 [cs.CV]
  https://doi.org/10.48550/arXiv.2603.09094
もっと詳しく知るためにフォーカス
DataCite 経由で発行された arXiv DOI

投稿履歴

発行者: Zixuan Wang [メールを表示]
[v1] 2026年3月10日(火)02:13:51 UTC(19,998 KB)
全文リンク:

論文へのアクセス:

    物理的にもっともらしいビデオ生成のための、出来事中心の因果的思考の連鎖という題名の論文を、Zixuan Wang および他6名の著者によってPDFとして表示する
  • PDFを見る
  • HTML(実験的)
  • TeX ソース
現在の閲覧コンテキスト:
cs.CV
返却形式: {"translated": "翻訳されたHTML"}
次の条件で閲覧するには:
cs
BibTeX形式の引用をエクスポート 読み込み中...

BibTeX形式の引用

×
データ提供元:

ブックマーク

BibSonomyロゴ Redditロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラーの切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papersの切り替え
Connected Papers (Connected Papersとは?)
Litmapsの切り替え
Litmaps (Litmapsとは?)
scite.aiの切り替え
scite スマート引用 (スマート引用とは?)
コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXivの切り替え
alphaXiv (alphaXivとは?)
返却形式: {"translated": "翻訳されたHTML"}
Links to Code Toggle
CatalyzeX Code Finder for Papers (What is CatalyzeX?)
DagsHub Toggle
DagsHub (What is DagsHub?)
GotitPub Toggle
Gotit.pub (What is GotitPub?)
Huggingface Toggle
Hugging Face (What is Huggingface?)
Links to Code Toggle
Papers with Code (What is Papers with Code?)
ScienceCast Toggle
ScienceCast (What is ScienceCast?)
Demos

Demos

Replicate Toggle
Replicate (What is Replicate?)
Spaces Toggle
Hugging Face Spaces (What is Spaces?)
Spaces Toggle
TXYZ.AI (What is TXYZ.AI?)
Related Papers

Recommenders and Search Tools

Link to Influence Flower
Influence Flower (What are Influence Flowers?)
Core recommender の切り替え
CORE Recommender (CORE とは?)
About arXivLabs

arXivLabs: コミュニティの協力者と取り組む実験的プロジェクト

arXivLabs は、協力者が当社の Web サイト上で直接、新しい arXiv の機能を開発し、共有できるようにするためのフレームワークです。

arXivLabs を活用して取り組む個人および組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、そしてそれを認めています。 arXiv はこれらの価値観にコミットしており、それらを遵守するパートナーとのみ連携します。

arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか? arXivLabs についてもっと知る