ビデオ生成の基盤(ファウンデーション)の進化
arXiv cs.CV / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本記事はAIGCによるビデオ生成における最近の進展をまとめ、Sora、Veo3、Seedanceのような独自システムと、Wan、HunyuanVideoのようなオープンソースモデルの双方を取り上げつつ、時間的な整合性(テンポラル・コヒーレンス)と意味的な豊かさの向上に焦点を当てています。
- 既存のレビューにおけるギャップ(しばしばGANや拡散といった特定のモデル系統に限られている、あるいは動画編集のようなより狭いタスクに限定されている)を指摘し、より包括的な歴史的進化の観点から捉えることを提案します。
- 本調査では、ビデオ生成の発展を、初期のGANベースのアプローチから拡散モデルへ、さらに新たに登場してきた自己回帰(AR)やマルチモーダル手法へとたどります。
- それぞれのアプローチにおける基礎原理を分析し、強みと限界を比較します。特に、文脈認識力を高めるためのマルチモーダル統合に重点を置いています。
- 本論文は、こうした発展をより広い「ワールドモデル(世界モデル)」の方向性と結び付け、VR/AR、教育、自動運転のシミュレーション、デジタルエンターテインメントといった潜在的な応用例にも言及しています。



