平均プーリングが機能する理由:テキスト埋め込みにおける第2次の崩壊を定量化する

arXiv cs.CL / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文はテキスト埋め込みモデルにおける平均プーリングを分析し、トークン埋め込みの高次(空間的・構造的)統計に含まれる情報が失われる「第2次の崩壊」が起こり得ると主張します。
  • 平均プーリングによって誘発される崩壊の大きさを定量化するためのシンプルな指標を提案し、それを実際のモデルとデータセットに適用します。
  • 実験の結果、近年のテキストエンコーダはこの第2次の崩壊に対して概ね頑健であり、コントラスト学習で微調整されたエンコーダは事前学習バックボーンよりも崩壊しにくいことが分かります。
  • この頑健性は、各テキスト内でトークン埋め込みがどれだけ集中しているかに起因すると説明され、提案指標で測られる崩壊の小ささは下流タスクの性能と相関することが示されます。
  • 総じて、比較的粗い平均プーリングに依存していてもテキストエンコーダが有効であり続ける理由について、新しい観点を提供します。

要旨: テキスト埋め込みを構築するために、トークン埋め込みを平均する平均プーリング(mean pooling)は標準的な手法である。本論文では、平均プーリングが実際のモデルにおいてうまく機能しているのかを検討する。まず、平均プーリングは、トークン埋め込みの空間構造を捉える第二次統計量など、一次統計量を超える情報を崩してしまう可能性があり、結果として異なるトークン埋め込み分布が類似したテキスト埋め込みへ写像され得ることを指摘する。この懸念に動機づけられ、本論文では、そのような平均プーリングによって誘発される崩壊(collapse)を定量化する単純な指標を提案する。次に、この指標を用いて、実際のモデルとテキストにおいてこの崩壊がどれほどの頻度で起きるかを実験的に測定し、現代のテキストエンコーダはこの崩壊に対して頑健であることを見出す。特に、対照的に微調整されたテキストエンコーダは、事前学習済みバックボーンモデルよりも崩壊が起きにくい傾向がある。さらに、これらのテキストエンコーダの頑健性が、各テキスト内におけるトークン埋め込みの集中(concentration)に支えられていることも見出す加えて、提案した指標によって定量化される、崩壊に対する頑健性が下流タスクの性能と相関することを見出す。全体として、本研究は、一見すると粗い平均プーリングに依存しているにもかかわらず、なぜ現代のテキストエンコーダが依然として有効であり続けるのかについての新しい視点を提供する。