Thinking Pixel:マルチモーダル拡散潜在表現における再帰的スパース推論

arXiv cs.CV / 2026/4/29

📰 ニュースModels & Research

要点

  • 本論文は、拡散モデルが高品質な生成に成功している一方で、テキストに従うなどの複雑で構造化された推論を、マルチモーダルのテキストから画像生成へ拡張するうえでは制約があると指摘しています。
  • そこで、通常の拡散モデルに再帰的なスパース mixture-of-experts(MoE)を統合し、ジョイント注意(joint attention)層内に再帰成分を導入して潜在ステップを複数回回しながら視覚トークンを反復的に洗練させる手法を提案しています。
  • 各ステップでは、現在の視覚トークン、拡散のタイムステップ、条件情報に基づいてゲーティングネットワークが専門モジュールを動的に選択し、専門家のスパース選択によりパラメータ共有を効率化します。
  • ImageNetでのクラス条件付き生成に加え、GenEvalやDPGベンチマークでの追加検証により、本提案が既存手法より画像生成性能を高めることが示されています。
  • 全体として、本研究は言語モデルで用いられてきた潜在推論や再帰的戦略を、連続的なトークンを扱う拡散に適した再帰的MoE設計としてマルチモーダルへ拡張しています。