多言語事前学習データ選別のためのクロスリンガル品質分類器への取り組み

arXiv cs.CL / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多くの言語でネイティブの高品質データが十分でなく、多言語の事前学習データセット用の堅牢な品質分類器を学習しにくいという課題を扱います。
埋め込み空間における品質の指標が言語横断で一貫性を示し得るため、高資源言語が低資源言語のフィルタリングを補助できるという考え方を提案します。
クロスリンガル転移、第三四分位（Q3）サンプリング、保持率チューニングといった複数のフィルタリング戦略を、103Bトークンで学習する1Bモデルを用いて評価します。
結果として、大規模な多言語プーリングは単言語ベースラインよりも、順位の安定性と総合精度の両面で優れることが多く、高資源言語ではフランス語で（総合正規化精度が）+1.2%の改善が見られます。
また、単に多言語のスケールを大きくするだけでは安定性が保証されず、高資源言語ではQ3サンプリングや保持率チューニングで意思決定境界を精緻化する必要があることを示しています。