トークン効率の高い画像生成のための意味論に着目したプレフィックス学習

arXiv cs.CV / 2026/3/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、潜在画像生成に用いられる既存の視覚トークナイザがしばしば再構成主導の目的で学習されており、その結果として、高レベルの意味論に十分に根付いていない可能性のある潜在コードが得られていると主張している。
  • クラスレベルの意味論的条件を、クエリベースの1次元トークン化フレームワークに注入するSMAP(Semantic-Aware Prefix tokenizer)を提案し、末尾トークンのドロップ戦略によって意味論を機能的に必須なものにしている。
  • 利用可能なトークン予算が減少するにつれて、意味論的条件づけと初期の潜在プレフィックスが、ますます大きな学習上の負担を担うように設計されている。
  • 学習された潜在空間が再構成にとどまらず生成を支えられることを保証するため、著者らは、因果的自己回帰(Causal AutoRegressive)と拡散(Diffusion)を組み合わせたハイブリッドな生成器CARDを導入している。
  • ImageNetでの実験では、SMAPが離散および連続のトークン化設定において再構成品質を改善し、コンパクトなトークン予算でも下流の生成性能が高いことが報告されている。

概要: 視覚トークナイザーは、高次元の画像と扱いやすい生成モデリングをつなぐことで、潜在画像生成において中心的な役割を果たします。しかし、既存の多くのトークナイザーは依然として、再構成が支配的な目的関数で学習されており、その結果得られる潜在表現は、高レベルのセマンティクスに対して十分には根拠づけられていないことがしばしばあります。近年の手法ではセマンティクスの整合が改善されていますが、一般にセマンティクスの信号を、表現学習において機能的に必須とするのではなく、補助的な正則化として扱います。我々はSMAP(SeMantic-Aware Prefix トークナイザー)を提案します。SMAPは、クエリベースの1Dトークン化フレームワークに、クラスレベルのセマンティック条件を注入します。学習中にセマンティクスを不可欠なものにするため、SMAPはテールトークンのドロップ戦略を導入します。これにより、セマンティック条件と、初期の潜在プレフィックスに対して、トークン予算が段階的に減少するのに伴い、その責任が増大するよう強制されます。得られた潜在空間が、再構成のみではなく生成に有用であることを検証するために、さらにCARD(ハイブリッドな因果自己回帰--拡散ジェネレータ)を導入します。ImageNet上での大規模な実験により、SMAPは離散および連続のトークン化設定のいずれにおいても、再構成品質を一貫して改善すること、そしてセマンティクスに根ざした潜在空間が、コンパクトなトークン予算下で強力な下流の生成性能をもたらすことが示されます。