要旨: ベクトル量子化は、連続表現を離散ベクトルの集合に離散化する機械学習の手法です。大規模言語モデル、拡散モデル、その他の生成モデルのデータ表現のトークン化に広く用いられています。その普及にもかかわらず、生成モデルにおけるベクトル量子化の特徴や挙動は依然として十分には解明されていません。本研究では、離散コードブックのトークンと連続潜在埋め込みの全体にわたって崩壊表現が観察される、ベクトル量子化の崩壊問題を体系的に調査します。人工データセットと実データセットの両方を活用することで、各種崩壊の深刻さと発生条件を特定します。我々の分析は、ランダム初期化と限られたエンコーダ容量が、トークンの崩壊と埋め込みの崩壊をもたらすことを明らかにします。これらの知見に基づき、それぞれの崩壊を緩和することを目的とした潜在的な解決策を提案します。私たちの知る限り、ベクトル量子化における表現崩壊問題を包括的に検討した最初の研究です。
早期量子化がコードブックを縮小する:多様性を保つトークン化のためのシンプルな対策
arXiv cs.LG / 2026/3/19
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、生成モデルにおけるデータのトークン化に用いられるベクトル量子化の崩壊を調査し、離散的なコードブックトークンと連続的な潜在埋め込みの間で崩壊現象を特定している。
- 合成データと実データの両方を用いて、それぞれの崩壊タイプの深刻度を定量化し、誘発条件を確立している。
- 本研究は、乱数初期化がトークンの崩壊を、限られたエンコーダ容量が埋め込みの崩壊を引き起こすことを示している。
- 著者らは、それぞれの崩壊タイプに対処することを目的とした潜在的な緩和戦略を提案し、ベクトル量子化における表現崩壊問題の初の包括的分析であると位置づけている。