広告

MacTok:画像生成のための堅牢な連続トークン化

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、効率的な画像生成のためにコンパクトで滑らかな潜在表現を学習する、マスク付き1D連続画像トークナイザ「MacTok」を提案する。
  • トークン数が少ない条件で起こりがちな、変分トークナイザ学習における事後崩壊(posterior collapse)に対処するため、ランダムマスキング正則化とDINOに導かれた意味マスキングを組み合わせ、情報量のある潜在エンコーディングを強制する。
  • MacTokは、圧縮度の高い1D潜在空間であっても識別的な意味情報を保持するために、グローバル表現とローカル表現の整合を用いる。
  • ImageNetでの実験により、SiT-XLを用いた場合、256×256で競争力のあるgFIDを示し、512×512では最先端の結果を達成しつつ、トークン使用量を最大64分の1に削減する。
  • 得られた知見は、マスキングに加えて意味的ガイダンスを行うことで崩壊を確実に防げることを示しており、64または128トークンのみで高忠実度なビジュアル・トークン化が可能になる。

Abstract

連続画像トークナイザは効率的な視覚生成を可能にし、変分フレームワークに基づくものはKL正則化によって滑らかで構造化された潜在表現を学習できます。しかし、トークン数を減らすと、多くの場合事後崩壊(posterior collapse)が起きます。これは、エンコーダが圧縮された潜在空間に有益な特徴を符号化できなくなるためです。これに対処するため、私たちは extbf{MacTok}、すなわち extbf{M}asked extbf{A}ugmenting 1D extbf{C}ontinuous extbf{Tok}enizer を提案します。MacTok は画像のマスキングと表現のアラインメントを活用し、事後崩壊を防ぎながら、コンパクトで頑健な表現を学習します。MacTok は、潜在学習を正則化するためのランダムマスキングと、画像内の情報量の多い領域を強調するための DINO による誘導セマンティックマスキングの両方を適用し、不完全な視覚的根拠から頑健な意味を符号化するようモデルに強制します。さらに、グローバルおよびローカルの表現アラインメントと組み合わせることで、MacTok は非常に圧縮された 1D 潜在空間においても豊かな識別情報を保持し、64 または 128 トークンのみで済みます。ImageNet では、MacTok は SiT-XL により 256 imes256 で競争力のある gFID 1.44 を達成し、512 imes512 では最先端の 1.52 を達成する一方、トークン使用量を最大 64 imes 削減します。これらの結果は、マスキングとセマンティック誘導を組み合わせることで事後崩壊を防ぎ、効率的かつ高忠実度なトークン化を実現できることを確認しています。

広告