AI Navigate

スパースオートエンコーダを用いた検索モデルの学習

arXiv cs.LG / 2026/3/17

📰 ニュースModels & Research

要点

  • SPLAREを紹介します。SAEベースの学習型スパース検索(LSR)モデルを訓練する方法であり、クエリと文書を語彙空間へ射影するのではなく、高次元の疎表現へエンコードします。
  • スパースオートエンコーダは、密なLLM表現を解釈可能な潜在特徴に分解し、意味論的に構造化された言語非依存の検索信号を実現します。
  • 実証的結果は、SPLAREベースのLSRが語彙ベースのLSRを多言語設定およびドメイン外設定で一貫して上回ることを示し、SPLARE-7BはMMTEBの多言語および英語の検索タスクでトップの結果を達成しています。
  • 2Bパラメータの軽量版は、フットプリントを小さく保ちながら検索性能を維持することを示しており、手法の実用的なスケーラビリティを強調しています。

概要: スパースオートエンコーダ(SAEs)は、Large Language Models(LLMs)が生成する密な表現を、解釈可能な潜在特徴へ分解する強力な機構を提供します。私たちは、SAEsが Learned Sparse Retrieval(LSR)の自然な基盤を成すと考えます。LSR の目的は、クエリと文書を効率的な検索のために最適化された高次元のスパース表現へ符号化することです。入力系列を語彙空間へ射影する既存のLSRアプローチとは対照的に、SAEベースの表現は、より意味的に構造化され、表現力が高く、言語に依存しない特徴を生み出す可能性を提供します。この洞察に基づき、SAEベースのLSRモデルを訓練する手法SPLAREを紹介します。我々の実験は、最近公開されたオープンソースSAEsに依拠しており、この手法が多言語設定およびドメイン外設定で語彙ベースのLSRを一貫して上回ることを示しています。SPLARE-7Bは、幅広い言語とドメインに対して一般化可能なスパース潜在埋め込みを生成できる多言語検索モデルであり、MMTEBの多言語および英語検索タスクで上位の結果を達成します。さらに、はるかに軽量なフットプリントを持つ2Bパラメータのバリアントも開発しました。