XITE:埋め込みによる転移のためのクロスリンガル補間

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、低リソースのターゲット言語からのラベルなしテキストを用いて、多言語言語モデルのクロスリンガル転移を改善するための埋め込みベースのデータ拡張手法「XITE」を提案する。
  • XITEは、埋め込み類似度によりタスク固有のコーパス内で英語の対応文を見つけてラベルを付与し、ソースとターゲットの埋め込みを補間して微調整用の合成学習データを生成する。
  • 補間の前に、線形判別分析(LDA)でターゲット文を言語豊富な部分空間へ射影することで、性能がさらに向上する。
  • XLM-Rを用いた実験では、韓国語・アラビア語・ウルドゥ語・ヒンディー語など多様なターゲット言語で大幅な改善が示され、感情分析で最大35.91%、自然言語推論で最大81.16%の向上が得られる。
  • さらに、XITEによる適応は高リソース言語での性能を維持しつつ、忘却を抑えながら転移性能を高めることにも寄与する。

Abstract

多言語言語モデルにおける異言語間転移の促進は、依然として重要な課題である。この目標に向けて、埋め込みに基づくデータ拡張手法であるXITEを提案する。まず、低リソースのターゲット言語からラベルなしテキストを用意し、埋め込みベースの類似度を用いてタスク固有の学習コーパス内の英語対応文を特定し、そのラベルを採用する。次に、ソースとターゲットの埋め込みを単純に内挿して、タスク固有のファインチューニング用の合成データを作成する。さらに、内挿の前に線形判別分析(LDA)を用いてターゲット文を言語に富んだ部分空間へ射影することで、性能が一層向上する。異言語間埋め込みベースの拡張手法XITEは、韓国語、アラビア語、ウルドゥー語、ヒンディー語を含む多様なターゲット言語に対して、XLM-Rを用いた感情分析で最大35.91%、自然言語推論で最大81.16%の大幅な改善をもたらす。異言語間転移を高めることに加えて、XITEによる適応は、忘却を防ぎ、高リソース言語におけるタスク性能を維持することもできる。