AI Navigate

EvoTok: 残差潜在進化による統一画像トークナイザーで視覚理解と生成を実現

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • EvoTokは、残差ベクトル量子化を用いて共有潜在空間で残差進化を学習することにより、視覚理解と生成を統合的に調和させる統一画像トークナイザーを導入します。
  • それは、画像を段階的な残差トークンの連鎖としてエンコードし、進化軌道を形成します。初期段階は低レベルの細部を捉え、深い段階になるにつれて高レベルの意味表現へと移行します。
  • 約1300万枚の画像で訓練されたにもかかわらず、従来の億規模データセットを用いる多くの先行統一トークナイザーに比べて小規模であるにもかかわらず、EvoTokは256x256の解像度でImageNet-1Kに対して0.43 rFIDの高い再構成品質を達成します。
  • 大規模言語モデルと統合すると、9つの視覚理解ベンチマークのうち7つで有望な結果を示し、GenEvalおよびGenAI-Benchのような画像生成ベンチマークで卓越した成果を示します。

要約: 統一型マルチモーダル大規模言語モデル(MLLMs)の開発は、視覚理解と生成の粒度のギャップによって根本的に課題を抱えています。理解には高レベルの意味的抽象が必要ですが、画像生成には細かなピクセルレベル表現が要求されます。既存のアプローチは通常、視覚理解と生成の二つの監視を同じ表現セットに課すか、これらの監視を別々の特徴空間で分離して扱い、それぞれ干渉と不整合を引き起こします。本研究では、共通の潜在空間内での残差進化プロセスを通じてこれらの要件を調和させる統一画像トークナイザー「EvoTok」を提案します。ピクセルと意味表現のための別々のトークン空間を維持する代わりに、EvoTokは残差ベクトル量子化を介して画像を段階的な残差トークンの連鎖としてエンコードします。この残差列は進化軌道を形成し、初期段階で低レベルの細部を捉え、深い段階で高レベルの意味表現へと段階的に移行します。約1300万枚の画像という比較的控えめなデータセットで訓練されたにもかかわらず、従来の億規模データセットを用いる多くの先行統一トークンナイザに比べて小規模であるにもかかわらず、EvoTokは256x256の解像度でImageNet-1Kに対して0.43 rFIDという強力な再構成品質を達成します。大規模言語モデルと統合すると、EvoTokは9つの視覚理解ベンチマークのうち7つで有望な性能を示し、GenEvalおよびGenAI-Benchのような画像生成ベンチマークで顕著な結果を示します。これらの結果は、視覚表現を進化する軌道としてモデリングすることが、視覚理解と生成を統一するための効果的で原理的な解決策を提供することを示しています。