概要: 自己回帰的な画像モデリングは、画像をコンパクトな潜在表現へ圧縮するための視覚トークナイザに依存します。私たちは、再構成と生成を同時に最適化するエンドツーエンドの学習パイプラインを設計し、生成結果からトークナイザへの直接的な教師信号を可能にします。これは、従来の2段階アプローチがトークナイザと生成モデルを別々に学習していたのと対照的です。さらに、視覚の基盤モデルを活用して、自己回帰モデリングのための1Dトークナイザを改善することを調査します。私たちの自己回帰的生成モデルは、強力な実験結果を達成しており、ImageNetの256x256生成においてガイダンスなしで最先端のFIDスコア1.48を含みます。
1Dセマンティックトークナイザによるエンドツーエンド・自己回帰型画像生成
arXiv cs.CV / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、1Dセマンティックトークナイザと自己回帰型の生成モデルを同時に学習するエンドツーエンドの画像生成フレームワークを提案し、生成結果からトークナイザを直接監督できるようにします。
- 従来の「2段階」手法でトークナイザと画像生成器を別々に学習するのに対し、本アプローチは再構成と生成を単一の学習パイプラインで共同最適化します。
- 著者らは、自己回帰型画像モデリング向けに1Dトークナイザを強化するため、視覚の基盤モデルを活用する可能性も検討しています。
- 得られた自己回帰型モデルは品質が高く、ImageNet 256×256生成でガイダンスなしの条件ながらFID 1.48を達成し、SOTA(最先端)だと主張しています。



