TC-AE:深い圧縮オートエンコーダに向けたトークン容量の解放

arXiv cs.CV / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • TC-AEは、ピクセルと潜在(latents)の間のトークン空間で動作することで、高い圧縮率における再構成性能と生成性能の両方を改善する、ViTベースの深い圧縮オートエンコーダを提案する。
  • この手法は、潜在予算を固定した条件でのトークンのスケーリングを分析し、攻めたトークン対潜在の圧縮が、有効なスケーリングを阻む主要因であることを見出す。
  • 情報損失を減らすために、TC-AEはトークン対潜在の圧縮を2つの段階に分解し、生成用途に向けたトークンのスケーリングをより適切に行えるようにする。
  • また、画像トークンのセマンティック構造を強化し、共同の自己教師あり学習によって潜在表現の崩壊(collapse)を緩和する。
  • 著者らはTC-AEを、視覚生成のためのViTベースのトークナイザに向けた前進として位置づけ、深い圧縮の領域において潜在の品質を向上させることを目指している。