Abstract
連続画像トークナイザは効率的な視覚生成を可能にし、変分フレームワークに基づくものはKL正則化によって滑らかで構造化された潜在表現を学習できます。しかし、トークン数を減らすと、多くの場合事後崩壊(posterior collapse)が起きます。これは、エンコーダが圧縮された潜在空間に有益な特徴を符号化できなくなるためです。これに対処するため、私たちは extbf{MacTok}、すなわち extbf{M}asked extbf{A}ugmenting 1D extbf{C}ontinuous extbf{Tok}enizer を提案します。MacTok は画像のマスキングと表現のアラインメントを活用し、事後崩壊を防ぎながら、コンパクトで頑健な表現を学習します。MacTok は、潜在学習を正則化するためのランダムマスキングと、画像内の情報量の多い領域を強調するための DINO による誘導セマンティックマスキングの両方を適用し、不完全な視覚的根拠から頑健な意味を符号化するようモデルに強制します。さらに、グローバルおよびローカルの表現アラインメントと組み合わせることで、MacTok は非常に圧縮された 1D 潜在空間においても豊かな識別情報を保持し、64 または 128 トークンのみで済みます。ImageNet では、MacTok は SiT-XL により 256 imes256 で競争力のある gFID 1.44 を達成し、512 imes512 では最先端の 1.52 を達成する一方、トークン使用量を最大 64 imes 削減します。これらの結果は、マスキングとセマンティック誘導を組み合わせることで事後崩壊を防ぎ、効率的かつ高忠実度なトークン化を実現できることを確認しています。