計算機科学 > コンピュータビジョンとパターン認識
arXiv:2603.09094 (cs)
[2026年3月10日投稿]
題名:物理的にもっともらしいビデオ生成のための、出来事中心の因果的思考の連鎖
物理的にもっともらしいビデオ生成のための、出来事中心の因果的思考の連鎖という題名の論文を、Zixuan Wang および他6名の著者によってPDFとして表示する
PDFを見る
HTML(実験的)
要旨:物理的にもっともらしいビデオ生成(PPVG)は、現実世界の物理現象をモデリングする有望な手段として登場してきた。PPVGには常識的知識の理解が必要であり、ビデオ拡散モデルにとっては依然として課題である。現在のアプローチは、大規模言語モデルの常識推論能力を活用して、物理的概念をプロンプトに埋め込むことが多い。しかし、生成モデルは因果進行をモデル化するための条件付け機構が不足しているため、物理現象をしばしばプロンプトで定義された単一の瞬間として生成してしまう。本論文では、PPVGを「因果的に結びついた出来事の系列であり、かつ動的に変化する出来事の生成」として捉える。このパラダイムを実現するために、我々は2つの主要モジュールを設計する:(1) 物理駆動のイベント連鎖推論。このモジュールは、プロンプトに記述された物理現象を、鎖状(チェーン・オブ・ソート)の思考を用いて複数の基本的な出来事単位へ分解する。因果的曖昧さを緩和するために、推論中に決定論的な因果依存関係を課す拘束として、物理式を埋め込む。(2) 遷移を意識したクロスモーダル・プロンプト(TCP)。出来事間の連続性を維持するために、このモジュールは因果的イベント単位を、時間的に整合した視覚-言語プロンプトへ変換する。離散的な出来事記述を要約して因果的に一貫した物語を得る一方、対話的な編集によって、各出来事の視覚的なキーフレームを段階的に合成する。PhyGenBenchおよびVideoPhyの包括的な実験により、提案フレームワークが多様な物理ドメインにおいて、物理的にもっともらしいビデオを生成する上で優れた性能を達成することを示す。コードは近々公開する予定である。
| コメント: | |
| 分野: | コンピュータビジョンとパターン認識(cs.CV) |
| 引用形式: | arXiv:2603.09094 [cs.CV] |
| (この版の場合は arXiv:2603.09094v1 [cs.CV]) | |
| https://doi.org/10.48550/arXiv.2603.09094
もっと詳しく知るためにフォーカス
DataCite 経由で発行された arXiv DOI
|
書誌ツール
コード、データ、メディア
返却形式: {"translated": "翻訳されたHTML"}
Demos
Related Papers
About arXivLabs
書誌および引用ツール
書誌エクスプローラーの切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papersの切り替え
Connected Papers (Connected Papersとは?)
Litmapsの切り替え
Litmaps (Litmapsとは?)
scite.aiの切り替え
scite スマート引用 (スマート引用とは?)
この記事に関連付けられたコード、データ、メディア
alphaXivの切り替え
alphaXiv (alphaXivとは?)
Links to Code Toggle
CatalyzeX Code Finder for Papers (What is CatalyzeX?)
DagsHub Toggle
DagsHub (What is DagsHub?)
GotitPub Toggle
Gotit.pub (What is GotitPub?)
Huggingface Toggle
Hugging Face (What is Huggingface?)
Links to Code Toggle
Papers with Code (What is Papers with Code?)
ScienceCast Toggle
ScienceCast (What is ScienceCast?)
Demos
Replicate Toggle
Replicate (What is Replicate?)
Spaces Toggle
Hugging Face Spaces (What is Spaces?)
Spaces Toggle
TXYZ.AI (What is TXYZ.AI?)
Recommenders and Search Tools
Link to Influence Flower
Influence Flower (What are Influence Flowers?)
Core recommender の切り替え
CORE Recommender (CORE とは?)
arXivLabs: コミュニティの協力者と取り組む実験的プロジェクト
arXivLabs は、協力者が当社の Web サイト上で直接、新しい arXiv の機能を開発し、共有できるようにするためのフレームワークです。
arXivLabs を活用して取り組む個人および組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、そしてそれを認めています。 arXiv はこれらの価値観にコミットしており、それらを遵守するパートナーとのみ連携します。
arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか? arXivLabs についてもっと知る。




