ADE(Adaptive Dictionary Embeddings)—マルチアンカー表現を大規模言語モデルへスケールする

arXiv cs.CL / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、従来は計算効率の問題で大規模モデルに適用しにくかったマルチアンカーの単語表現を、大規模言語モデル系のアーキテクチャにスケールさせる枠組み「Adaptive Dictionary Embeddings(ADE)」を提案します。
  • ADEの中核は、Vocabulary Projection(高コストなアンカー検索を効率的な行列演算に置き換える)、Grouped Positional Encoding(同一語に属するアンカー間で位置情報を共有しつつアンカーごとの変化を可能にする)、自己注意に基づく文脈対応のアンカー再重み付けの3点です。
  • ADEはSegment-Aware Transformer(SAT)に統合され、推論時に文脈に応じたアンカーの重み付けを行います。
  • AG NewsとDBpedia-14で評価したところ、学習可能パラメータがDeBERTa-v3-baseに対して98.7%削減される一方で、DBpedia-14ではDeBERTaを上回り、AG Newsでも近い性能に到達し、埋め込み層は40倍超で圧縮できることを示しています。
  • これらの結果から、マルチアンカー表現は単一ベクトルの単語埋め込みに対する、実用的でパラメータ効率の高い代替になり得ることが示唆されます。

Abstract

ワード埋め込みは自然言語処理の基礎ですが、従来の手法では各単語を単一のベクトルで表すため、多義語に対する表現上のボトルネックが生じ、意味表現の柔軟性が制限されます。複数アンカー表現は、単語を複数のベクトルの組み合わせとして表すことで有望であることが示されてきましたが、計算効率の悪さや最新のトランスフォーマー・アーキテクチャとの統合の欠如のために、小規模モデルに限られてきました。私たちは、マルチアンカーの単語表現を大規模言語モデルへと適切にスケールさせる枠組み、Adaptive Dictionary Embeddings(ADE)を提案します。ADEは3つの主要な貢献を行います。 (1) Vocabulary Projection(VP):コストの高い2段階のアンカー探索を、単一で効率的な行列演算へと変換します。 (2) Grouped Positional Encoding(GPE):同一の単語に属するアンカーが位置情報を共有する、新しい位置エンコーディング手法であり、意味の一貫性を保ちながらアンカー単位の変動を可能にします。 (3) 文脈に応じたアンカー再重み付け:自己注意を活用して、系列文脈に基づきアンカーの寄与を動的に合成します。これらの要素を、Segment-Aware Transformer(SAT)へ統合し、推論時にアンカー寄与の文脈に応じた再重み付けを提供します。ADEをAG NewsおよびDBpedia-14のテキスト分類ベンチマークで評価します。DeBERTa-v3-baseと比べて訓練可能パラメータを98.7%削減し、DBpedia-14ではDeBERTaを上回ります(98.06% vs. 97.80%)。またAG Newsではそれに近づきます(90.64% vs. 94.50%)。さらに埋め込み層を40倍以上圧縮し、マルチアンカー表現が、現代のトランスフォーマー・アーキテクチャにおいて、単一ベクトル埋め込みに代わる実用的でパラメータ効率の高い選択肢であることを示しています。