Budget-Xfer: 低資源アフリカ言語へのクロスリンガル転移のための予算制約付きソース言語選択

arXiv cs.CL / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、低資源のアフリカ言語へのクロスリンガル転移において、複数のソース言語を選択し固定の注釈予算を割り当てるための枠組みであるBudget-Xferを提案する。
ソース選択を、予算制約付きの資源配分問題としてモデル化することで、本研究は言語選択の効果を、総トレーニングデータ量による交絡の影響から切り離すことを目指す。
ハウサ語、ヨルバ語、スワヒリ語に対する固有表現抽出（NER）および感情分析についての実験（2つの多言語モデルを用いた288回の実行）では、多ソース転移が単一ソース転移を大きく上回り、Cohen’s dは0.80から1.98の範囲となる。
著者らは、多ソース配分戦略の中では、性能差は概して小さく、統計的に有意でないことを見出している。
さらに、選択の代理指標として埋め込み類似度を用いることはタスク依存であり、NERではランダムなソース選択がより良い一方、感情分析では類似度ベースの選択が優れていないことを報告している。

Abstract

言語をまたいだ転移学習により、上位資源言語からのラベル付きデータを活用することで、低リソース言語向けのNLPを可能にする。しかし、既存の情報源言語選択戦略の比較は、総学習データ量を制御しておらず、その結果として、言語選択の効果とデータ量の効果が混同されてしまっている。私たちは、Budget-Xferという枠組みを導入する。これは、多言語（複数ソース）間の言語横断転移を、予算制約付きの資源配分問題として定式化するものである。固定された注釈予算Bのもとで、この枠組みは、どの情報源言語を含めるか、そして各言語にどれだけのデータを割り当てるかを共同で最適化する。私たちは、3つのアフリカのターゲット言語（ハウサ語、ヨルバ語、スワヒリ語）に対し、固有表現認識と感情分析の2つのタスクで、2つの多言語モデルを用いて、4つの配分戦略を比較し、288件の実験を行った。結果として、(1) 多ソース転移は単ソース転移を大幅に上回る（Cohen's d = 0.80〜1.98）。これは、構造的な予算の未活用（underutilization）によるボトルネックによってもたらされる。(2) 多ソース戦略の間では、差は小さく有意ではない。(3) 選択の代理指標としての埋め込み類似度の価値はタスク依存であり、NERでは類似度に基づく選択よりもランダム選択の方が優れるが、感情分析ではそうではない。