AI Navigate

LLM2Vec-Gen: 大規模言語モデルからの生成的埋め込み

arXiv cs.CL / 2026/3/12

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LLM2Vec-Genは、入力を直接エンコードするのではなく、モデルの潜在的な応答を表現することを学習して埋め込みを生成する自己教師付きアプローチを提示します。
  • LLMの語彙に学習可能な特殊トークンを追加し、それらを入力に付け加え、バックボーンを凍結したままLLMの応答を表現するよう最適化します。
  • 訓練は、クエリに対するLLM自身の完了をガイダンスとして使用し、蒸留ターゲットを提供する無教師付き埋め込み教師とともに、ラベルなしのクエリから学習できるようにします。
  • この手法は、MTEBで自己教師付き性能の最先端を達成し、最良の無教師付き埋め込み教師より9.3%改善します。さらに、有害なコンテンツ検索を最大43.2%削減し、推論を約29.3%向上させ、解釈可能な埋め込みをテキストへデコードできます。
要旨: LLMベースのテキスト埋め込み器は通常、入力の意味内容を符号化します。しかし、埋め込みタスクは多様な入力を類似した出力へマッピングすることが求められます。一般的には、この入力-出力のギャップは、対照学習を用いたペアデータで埋め込みモデルを訓練することで対処されます。本研究では、新しい自己教師付きアプローチである LLM2Vec-Gen を提案します。これは従来とは異なるパラダイムを採用します。入力をエンコードする代わりに、モデルの潜在的な応答を表現することを学習します。具体的には、学習可能な特殊トークンをLLMの語彙に追加し、それらを入力に付加して、LLMの応答を固定長のシーケンスとして表現するように最適化します。訓練は、クエリに対するLLM自身の完了をガイダンスとして使用し、蒸留ターゲットを提供する無教師付き埋め込み教師とともに行われ、ラベルなしのクエリから学習できるようにします。この設定は入力-出力のギャップを橋渡しするのに役立ち、LLMの安全性の整合性と推論といった能力を埋め込みタスクへ転移させます。特に重要なのは、LLMのバックボーンが凍結されたままで、訓練にはラベルなしのクエリのみが必要であるという点です。LLM2Vec-Gen は Massive Text Embedding Benchmark (MTEB) において自己教師付きの最先端性能を達成し、最良の無教師付き埋め込み教師より9.3%上回っています。また、有害なコンテンツの検索を最大で43.2%抑制し、埋め込みタスクの推論能力を約29.3%向上させることが観察されます。最後に、学習された埋め込みは解釈可能で、意味内容をテキストへデコードして明らかにすることができます。