少ないほど良い：小規模なノイズ混入の合成データで低資源言語に合わせてテキスト埋め込みを適応する

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、低資源言語（LRL）のテキスト埋め込み改善には、必ずしも大量かつ人手で検証済みの翻訳データセットが必要ではないと主張している。
アルメニア語をケーススタディとして、低コストな適応手法を提案し、多言語エンコーダ（mE5）を、オープンウェイトのモデルを用いて英語のRedditのタイトル—本文翻訳から生成した、ノイズを含む合成ペア10,000件のみによって微調整する。
実験結果は「Less is More（少ないほど良い）」効果を示している。すなわち、小規模でノイズのあるデータで微調整するとベンチマークの平均で11〜12%の向上が得られ、検索（リトリーバル）では相対的に20%以上の改善となり、約100万件の例で学習したモデルと同程度の性能になる。
合成データ規模の拡大、最先端のLLMによる翻訳品質の向上、領域の多様化を行っても、最小のベースラインを超える有意な改善は得られず、意味整合の早期飽和を示唆している。
著者らは別のスクリプト固有のLRLでも結果を検証し、再現性のためにモデル／データ／ベンチマークを公開し、限られたリソースのコミュニティに高性能な埋め込みを提供できることを示すものとして位置づけている。

%の改善が得られ、検索性能では相対的に20
%以上の改善が見られます。これは、約100万例で訓練したモデルと同等の性能です。さらに、データ規模の増加、最先端のLLMによる翻訳品質の向上、あるいはデータドメインの多様化を行っても、この最小ベースラインを上回る有意な改善は得られないことを示します。これらの知見の汎用性も、別の独自の文字体系をもつLRLで検証します。本結果は、LRLにおける意味アライメントが早期に飽和し、ノイズに対して非常に頑健であることを示唆しており、資源の制約を受けるコミュニティに対して高性能な埋め込み作成を民主化するものです。モデル、データ、およびベンチマークを https://metric-ai-lab.github.io/less-is-more-embeddings/ で公開し、さらなる研究を促進します。