Abstract
ベクトル量子化アプローチ(VQ-VAE, VQ-GAN)は画像の離散的なニューラル表現を学習しますが、これらの表現は本質的に位置依存です。コードは空間的に配置され、文脈的に絡み合っているため、サンプル時の依存関係をモデル化するには、自己回帰的または拡散ベースの事前分布(prior)が必要になります。本研究では、空間的に整列(aligned)されたデータの離散表現に、位置情報は必要なのかを問いかけます。私たちは、潜在コードが位置情報を一切持たないよう制約する、順列不変ベクトル量子化オートエンコーダ(PI-VQ)を提案します。この制約は、コードがグローバルな意味的特徴を捉えることを促し、学習された事前分布なしに画像間の直接補間を可能にすることを見出します。順列不変表現が持つ情報容量の低下に対処するために、最適な二部グラフのマッチングに基づくベクトル量子化アルゴリズムであるマッチング量子化を導入します。これにより、素朴な最近傍量子化に比べて有効なボトルネック容量が3.5 imes増加します。さらに、学習されたコードの合成(compositional)構造によって補間ベースのサンプリングが可能になり、1回の順伝播だけで新規画像の生成が可能になります。CelebA、CelebA-HQ、FFHQでPI-VQを評価し、提案手法により合成された画像に対して、競争力のある精度(precision)、密度(density)、カバー率(coverage)指標を得ました。位置情報を排した表現に内在するトレードオフ、すなわち潜在コードの分離可能性(separability)や解釈可能性(interpretability)について議論し、今後の研究の方向性を多数示します。