物理的に妥当な動画生成のための事象中心の因果的思考連鎖

arXiv cs.CV / 2026/3/11

Ideas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、物理現象を現在のモデルで単一の瞬間として捉える制限を克服し、因果的に連結し動的に進化する事象の連続としてモデル化することで、物理的に妥当な動画生成（PPVG）に取り組んでいる。
物理現象をチェーン・オブ・ソート推論と埋め込み物理制約を用いて基本的事象単位に分解する「物理駆動事象連鎖推論」と、時間的連続性を維持し因果的に一貫した視覚言語プロンプトを生成する「遷移認識型クロスモーダルプロンプティング（TCP）」という2つの新規モジュールを導入。
本手法は大規模言語モデルの常識推論能力を活用しつつ、決定論的な物理公式と事象の遷移を統合して因果進行のモデル化を強化し、現実的な動画シーケンスを生成する。
PhyGenBenchおよびVideoPhyのベンチマーク実験により、本フレームワークが多様な物理領域にわたり物理的に妥当な動画生成で既存手法を上回る性能を示すことが実証された。
著者らはPPVG分野のさらなる研究促進と実用化のためにコードの公開を予定している。

計算機科学 > コンピュータビジョンとパターン認識

arXiv:2603.09094 (cs)

[2026年3月10日投稿]

題名:物理的にもっともらしいビデオ生成のための、出来事中心の因果的思考の連鎖

著者:Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei

物理的にもっともらしいビデオ生成のための、出来事中心の因果的思考の連鎖という題名の論文を、Zixuan Wang および他6名の著者によってPDFとして表示する

PDFを見る HTML（実験的）

要旨:物理的にもっともらしいビデオ生成（PPVG）は、現実世界の物理現象をモデリングする有望な手段として登場してきた。PPVGには常識的知識の理解が必要であり、ビデオ拡散モデルにとっては依然として課題である。現在のアプローチは、大規模言語モデルの常識推論能力を活用して、物理的概念をプロンプトに埋め込むことが多い。しかし、生成モデルは因果進行をモデル化するための条件付け機構が不足しているため、物理現象をしばしばプロンプトで定義された単一の瞬間として生成してしまう。本論文では、PPVGを「因果的に結びついた出来事の系列であり、かつ動的に変化する出来事の生成」として捉える。このパラダイムを実現するために、我々は2つの主要モジュールを設計する：(1) 物理駆動のイベント連鎖推論。このモジュールは、プロンプトに記述された物理現象を、鎖状（チェーン・オブ・ソート）の思考を用いて複数の基本的な出来事単位へ分解する。因果的曖昧さを緩和するために、推論中に決定論的な因果依存関係を課す拘束として、物理式を埋め込む。(2) 遷移を意識したクロスモーダル・プロンプト（TCP）。出来事間の連続性を維持するために、このモジュールは因果的イベント単位を、時間的に整合した視覚-言語プロンプトへ変換する。離散的な出来事記述を要約して因果的に一貫した物語を得る一方、対話的な編集によって、各出来事の視覚的なキーフレームを段階的に合成する。PhyGenBenchおよびVideoPhyの包括的な実験により、提案フレームワークが多様な物理ドメインにおいて、物理的にもっともらしいビデオを生成する上で優れた性能を達成することを示す。コードは近々公開する予定である。

コメント:
分野:	コンピュータビジョンとパターン認識（cs.CV）
引用形式:	arXiv:2603.09094 [cs.CV]
	（この版の場合は arXiv:2603.09094v1 [cs.CV]）
	https://doi.org/10.48550/arXiv.2603.09094 もっと詳しく知るためにフォーカス DataCite 経由で発行された arXiv DOI

投稿履歴

発行者: Zixuan Wang [メールを表示]
[v1] 2026年3月10日（火）02:13:51 UTC（19,998 KB）

全文リンク:

論文へのアクセス:

PDFを見る
HTML（実験的）
TeX ソース

ライセンスを表示

現在の閲覧コンテキスト:

cs.CV

返却形式: {"translated": "翻訳されたHTML"}

< 前へ | 次へ >

新着 | 最近 | 2026-03

次の条件で閲覧するには：

参考文献 & 引用

BibTeX形式の引用をエクスポート読み込み中...

BibTeX形式の引用

データ提供元：

ブックマーク

書誌ツール

書誌および引用ツール

書誌エクスプローラーの切り替え

書誌エクスプローラー (エクスプローラーとは？)

Connected Papersの切り替え

Connected Papers (Connected Papersとは？)

Litmapsの切り替え

Litmaps (Litmapsとは？)

scite.aiの切り替え

scite スマート引用 (スマート引用とは？)

コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXivの切り替え

alphaXiv (alphaXivとは？)

返却形式: {"translated": "翻訳されたHTML"}

Links to Code Toggle

CatalyzeX Code Finder for Papers (What is CatalyzeX?)

DagsHub Toggle

DagsHub (What is DagsHub?)

GotitPub Toggle

Gotit.pub (What is GotitPub?)

Huggingface Toggle

Hugging Face (What is Huggingface?)

Links to Code Toggle

Papers with Code (What is Papers with Code?)

ScienceCast Toggle

ScienceCast (What is ScienceCast?)

Demos

Replicate Toggle

Replicate (What is Replicate?)

Spaces Toggle

Hugging Face Spaces (What is Spaces?)

Spaces Toggle

TXYZ.AI (What is TXYZ.AI?)

Recommenders and Search Tools

Link to Influence Flower

Influence Flower (What are Influence Flowers?)

Core recommender の切り替え

CORE Recommender (CORE とは？)

著者
掲載先
所属機関
トピック

About arXivLabs

arXivLabs: コミュニティの協力者と取り組む実験的プロジェクト

arXivLabs は、協力者が当社の Web サイト上で直接、新しい arXiv の機能を開発し、共有できるようにするためのフレームワークです。

arXivLabs を活用して取り組む個人および組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、そしてそれを認めています。 arXiv はこれらの価値観にコミットしており、それらを遵守するパートナーとのみ連携します。

arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか？ arXivLabs についてもっと知る。

この論文のどの著者が支持者ですか？ | MathJax を無効にする（MathJax とは？）

Copilotと物語を作ってみた #215 君の記憶を抱きしめて

note

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

note

Apple Intelligenceのことを復習してみる

note

月曜の昼、迷いを断ち切る。AIに「今週積み上げるべき『資産』のタスク」を決めさせる。【コピペOK】

note

おじとAIくんで進む総務の星への第一歩。NotebookLMで「爆速インプット」の魔法をかける

note

物理的に妥当な動画生成のための事象中心の因果的思考連鎖

要点

計算機科学 > コンピュータビジョンとパターン認識

題名:物理的にもっともらしいビデオ生成のための、出来事中心の因果的思考の連鎖

投稿履歴

論文へのアクセス:

参考文献 & 引用

BibTeX形式の引用

ブックマーク

書誌および引用ツール

この記事に関連付けられたコード、データ、メディア

Demos

Recommenders and Search Tools

arXivLabs: コミュニティの協力者と取り組む実験的プロジェクト

関連記事

Copilotと物語を作ってみた #215 君の記憶を抱きしめて

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

Apple Intelligenceのことを復習してみる

月曜の昼、迷いを断ち切る。AIに「今週積み上げるべき『資産』のタスク」を決めさせる。【コピペOK】

おじとAIくんで進む総務の星への第一歩。NotebookLMで「爆速インプット」の魔法をかける

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer