要旨: 我々は、任意の解像度およびアスペクト比へと一般化できる、効率的で解像度に依存しない自己回帰(AR)画像合成アプローチを提案し、大規模において拡散モデルとのギャップを縮めます。中核となるのはVibeTokenで、新規の解像度に依存しない1D Transformerベースの画像トークナイザです。画像を32〜256トークンの、動的でユーザが制御可能なシーケンスへ符号化し、最先端の効率と性能のトレードオフを実現します。VibeTokenに基づき、我々はVibeToken-Genを提示します。これはクラス条件付けされたARジェネレータで、あらゆる解像度に対するアウト・オブ・ザ・ボックスの対応を備えつつ、必要な計算資源を大幅に削減します。特にVibeToken-Genは、わずか64トークンで1024x1024の画像を合成し、3.94 gFIDを達成します。比較として、拡散ベースの最先端代替法は1,024トークンを要し、5.87 gFIDに到達します。LlamaGenのような固定解像度のARモデルとは対照的に、LlamaGenでは推論FLOPsが解像度に対して二次的に増大します(1024x1024で11T FLOPs)。一方でVibeToken-Genは、解像度に依存せず一定の179G FLOPsを維持します(63.4倍の効率)。VibeTokenが、生産利用のユースケースにおけるARの視覚的生成モデルの幅広い採用を切り開く助けになることを期待しています。
VibeToken:動的解像度生成のための1D画像トークナイザと自己回帰モデルのスケーリング
arXiv cs.LG / 2026/4/29
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、任意の解像度やアスペクト比に対応できる、効率的な解像度非依存の自己回帰型画像生成手法を提案しています。
- その中核として、VibeTokenという1D Transformerベースの画像トークナイザを導入し、画像を32〜256トークンの動的でユーザー制御可能なシーケンスとして表現することで、効率と品質のバランス向上を狙っています。
- さらにVibeToken-Genは、その上に構築されたクラス条件付き自己回帰ジェネレータで、任意解像度をサポートしつつ、拡散ベースラインより大幅に少ない計算量で動作するとしています。
- 著者らは、VibeToken-Genが1024×1024画像を64トークンで合成でき、3.94 gFIDを達成し、比較対象の拡散系SOTA(1,024トークン・5.87 gFID)を上回ると報告しています。
- 固定解像度の自己回帰モデルと異なり、解像度に対する推論計算量が二次的に増えるのではなく、VibeToken-Genは解像度に依存せず179G FLOPs(63.4倍の効率)を維持し、プロダクション導入の障壁を下げうる点を強調しています。



