Transformerエンコーダ向け、崩壊しないプロトタイプ・リードアウト層

arXiv cs.LG / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • DDCL-Attentionは、平均プーリング/クラス・トークンを、グローバルなプロトタイプベクトルとソフトなトークン対プロトタイプの対応付けを用いた学習済み圧縮スキームに置き換える、プロトタイプベースのリードアウト層を提案する。
  • この手法は、学習損失を再構成項と多様性項に分解することでプロトタイプの崩壊(collapse)を防ぎ、プロトタイプ同士を明確に保つことを目的としている。
  • エンコーダとの共同学習の安定性は、ティホノフの特異摂動理論に基づく理論的な裏付けに加え、実用的な時定数条件に結び付けた明示的な学習率制約によって支えられる。
  • 同一の枠組みは3通りに利用できる。最終リードアウト層として、VQ-VAEに関連する微分可能なコードブックとして、そして階層的なドキュメント圧縮としてである。
  • 複数のデータセットでの実験により、損失分解と、期待されるプロトタイプ分離のダイナミクスが検証される。さらに、ハードなベクトル量子化よりも、コードブック全体の活用による性能が優れていることが示される。加えて、軌道デブリ分類の事例を含め、典型的なNLP/コンピュータビジョンを超えた幅広い適用可能性が示唆される。

Abstract

DDCL-Attentionは、トランスフォーマーエンコーダー向けのプロトタイプベースの読み出し層(readout layer)であり、平均プーリングやクラス・トークンのような単純なプーリング手法を、学習された圧縮メカニズムで置き換えます。これは、少数のグローバル・プロトタイプベクトル集合を用い、ソフトな確率的マッチングによってトークンをそれらに割り当てることで、系列長に対して線形の計算量でコンパクトなトークン要約を生成します。 この手法は主に3つの利点を提供します。第一に、学習損失を再構成項と多様性項に厳密に分解することで、プロトタイプの崩壊(prototype collapse)を回避し、プロトタイプが互いに識別可能な状態を保てるようにします。第二に、エンコーダーとの共同学習は、チホノフの特異摂動理論および明示的な学習率の制約を用いることで、実運用上のタイムスケール条件の下で安定であることが示されています。第三に、同じ枠組みが3つの用途をサポートします。すなわち、最終的な読み出し層、VQ-VAEを拡張する微分可能なコードブック、そして階層型ドキュメント圧縮です。 4つのデータセットでの実験により、理論的予測が確認されています。損失分解は正確に成り立ち、安定性条件が満たされるとプロトタイプの分離が期待通りに増大し、コードブックは完全な利用率に到達し、標準的なハードなベクトル量子化を上回ります。さらに、軌道デブリの分類に関する追加研究では、この手法が標準的なNLPや視覚タスクにとどまらず、科学的な表形式データを含む領域にも適用できることが示されています。