新時代の視覚生成:アトミック・マッピングからエージェント的なワールドモデリングへ

arXiv cs.CV / 2026/5/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、視覚生成は見た目の説得力を作るだけでなく、構造・ダイナミクス・ドメイン知識・因果関係に根ざした「知的な」画像生成へ移行すべきだと主張しています。
  • アトミック生成、条件付き生成、インコンテキスト生成、エージェント的生成、ワールドモデリング生成の5段階のタクソノミーを提案し、受動的なレンダラーから対話的・エージェント的・世界を意識する生成へと進む流れを示しています。
  • 進歩の技術的要因として、フローマッチング、理解と生成を統合するモデル、より良い視覚表現、ポストトレーニング、報酬モデリング、データキュレーション、合成データの蒸留、サンプリング加速などを挙げています。
  • 現在の評価は、知覚的な品質を重視することで進捗を過大評価しがちであり、構造・時間・因果の失敗を見落としやすい点を警告しています。
  • ベンチマークの俯瞰、実環境でのストレステスト、専門家による制約付きケーススタディを組み合わせ、能力中心の評価アプローチで次世代の知的視覚生成を前進させるロードマップを提示しています。

要旨: 近年の視覚生成モデルは、フォоторリアリズム、タイポグラフィ、指示追従、インタラクティブ編集において大きな進展を遂げてきました。しかし、それでもなお、空間推論、持続的な状態、長期ホライゾンにわたる一貫性、そして因果理解に困難を抱えています。本研究では、当該分野は、見た目の合成を超えて、知的な視覚生成へと移行すべきだと主張します。すなわち、構造、ダイナミクス、ドメイン知識、因果関係に根ざした、もっともらしい視覚表現を生成することです。この転換を位置づけるために、5段階の分類法を導入します。すなわち、原子生成(Atomic Generation)、条件付き生成(Conditional Generation)、コンテキスト内生成(In-Context Generation)、エージェント生成(Agentic Generation)、世界モデル化生成(World-Modeling Generation)です。これは、受動的なレンダラーから、インタラクティブでエージェント的、かつ世界を理解した生成器へと段階的に進むものです。フロー整合(flow matching)、理解と生成を統一したモデル、改善された視覚表現、事後訓練(post-training)、報酬モデリング(reward modeling)、データのキュレーション、合成データ蒸留(synthetic data distillation)、サンプリングの高速化といった主要な技術的要因を分析します。さらに、現在の評価は、知覚的な品質を強調することで進展を過大評価しがちであり、構造的、時間的、因果的な失敗が見落とされていることを示します。ベンチマークのレビュー、野外(in-the-wild)でのストレステスト、そして専門家による制約付きのケーススタディを組み合わせることで、このロードマップは、次世代の知的視覚生成システムを理解し、評価し、発展させるための、能力中心のレンズを提供します。