ビデオ生成の基盤（ファウンデーション）の進化

arXiv cs.CV / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本記事はAIGCによるビデオ生成における最近の進展をまとめ、Sora、Veo3、Seedanceのような独自システムと、Wan、HunyuanVideoのようなオープンソースモデルの双方を取り上げつつ、時間的な整合性（テンポラル・コヒーレンス）と意味的な豊かさの向上に焦点を当てています。
既存のレビューにおけるギャップ（しばしばGANや拡散といった特定のモデル系統に限られている、あるいは動画編集のようなより狭いタスクに限定されている）を指摘し、より包括的な歴史的進化の観点から捉えることを提案します。
本調査では、ビデオ生成の発展を、初期のGANベースのアプローチから拡散モデルへ、さらに新たに登場してきた自己回帰（AR）やマルチモーダル手法へとたどります。
それぞれのアプローチにおける基礎原理を分析し、強みと限界を比較します。特に、文脈認識力を高めるためのマルチモーダル統合に重点を置いています。
本論文は、こうした発展をより広い「ワールドモデル（世界モデル）」の方向性と結び付け、VR/AR、教育、自動運転のシミュレーション、デジタルエンターテインメントといった潜在的な応用例にも言及しています。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH