AI Navigate

大規模言語モデルを用いた語彙ベースのテキスト埋め込みの強化

arXiv cs.CL / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LENS という語彙ベースの埋め込み手法を提案します。LENS は語彙別にクラスタリングされた大規模言語モデル(LLM)のトークン埋め込みを用いて冗長性を低減し、コンパクトな表現を作成します。
  • トークンと得られた埋め込みとの整合性を高めるため、双方向のアテンションとプーリング戦略を検討しています。
  • LENS は MTEB ベンチマークで密な埋め込みと競合する性能を発揮し、特化した目的を設けずに効率的な次元削減を可能にする一方、密な埋め込みと組み合わせると BEIR で最先端の結果を達成します。
  • これらの知見は、LLM を用いた語彙ベースの埋め込みが密な手法を補完できる可能性を示唆しており、ストレージ要件の低減やスケーラブルな検索システムの実現につながる可能性があります。

概要: 最近の大規模言語モデル(LLMs)は、汎用的なテキスト埋め込みタスクにおいて卓越した性能を示しています。密な埋め込みが関連研究を支配している一方で、我々はこれらのタスクで競争力のある性能を達成する、LLMsを活用した最初の語彙ベース埋め込み(LENS)を紹介します。LENSは、LLMの語彙におけるトークンの冗長性の問題に対処するため、トークン埋め込みのクラスタリングを通じて語彙空間を統合します。性能をさらに向上させるため、双方向アテンションとさまざまなプーリング戦略を検討します。具体的には、LENSは冗長な語彙を含む語彙に対して、各次元を特定のトークンクラスターに割り当てることで語彙マッチングを単純化し、意味的に類似したトークンを一緒にグループ化します。広範な実験は、LENSがMTEB(Massive Text Embedding Benchmark)において密な埋め込みを上回ることを示しており、密な対応物と同等の次元数でコンパクトな表現を提供します。さらに、マトリョーシカ表現学習のような特別な目的を要さず、LENSは効率的な埋め込み次元の剪定を本質的にサポートします。特に、LENSと密な埋め込みを組み合わせると、MTEBの検索サブセット(BEIR)で最先端の性能を達成します。