ポリグロット教師:多言語合成データ生成のための言語モデルを評価する

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多言語の合成SFTデータに対して利用可能な最大規模の言語モデルを「教師」として用いることは、しばしば場当たり的であり、品質の低いデータを生み出して小規模な学生モデルの性能を損なう可能性があると主張する。
  • 多言語評価の手法(「Polyglot Score」)を導入し、6つの類型論的に多様な言語に対して10の言語モデルで実験を行った結果、140万件超のSFT例を生成し、240の学生モデルを学習させた。
  • Gemma 3 27B と Aya Expanse 32B は、異なる学生ベースモデルの系列にまたがって一貫して効果的な多言語教師モデルであることが分かった。
  • 教師の有効性は、モデル規模のみではうまく予測できないことが明らかになった。代わりに、プロンプトの多様性、応答長、流暢さといった本質的なデータ品質がデータ品質の分散の大部分を説明し、学生の性能と相関する。
  • 著者らは、教師と学生のモデルの組み合わせに関する実践的な推奨事項と、既存のプロンプトから翻訳する、あるいはそれらに応答することで、資源の乏しい言語向けの合成データを改善するための戦略を提示している。

要旨: 言語モデル(LM)から合成データとして教師あり微調整(SFT)データを生成し、小規模モデルに多言語タスクを教えることは、近年ますます一般的になってきました。しかし、教師モデルの選択はしばしば場当たり的で、典型的には利用可能な最大のモデルが選ばれる傾向があります。ですが、そのようなモデルには非英語言語における大きな能力ギャップがある可能性があります。この実践は、品質の低い合成データや、学生モデル(生徒モデル)の下流性能の不十分さにつながり得ます。本研究では、効果的な多言語教師を何が特徴づけるのかを体系的に明らかにします。データ品質の内在的指標を、私たちが「Polyglot Score(ポリグロット・スコア)」と呼ぶ指標における、教師なしではない(外在的な)学生モデルの性能で計測します。6つの類型論的に多様な言語に対して10のLMを評価し、1.4M(140万)を超えるSFT例を生成し、240の学生モデルを学習させました。テストしたモデルの中では、Gemma 3 27B と Aya Expanse 32B が、異なる学生の基盤モデルのファミリーにまたがって一貫して効果的な教師として現れました。さらに詳細な分析により、モデル規模だけでは教師の有効性を有意に予測しないことが示されます。その代わりに、プロンプトの多様性、長さ、応答の流暢さといったデータ品質が、内在的なデータ品質における分散の93.3%超を捉え、学生の性能を予測します。最後に、教師—学生のモデルファミリーを組み合わせることや、既存のプロンプトから翻訳して利用すること、またはそれらに応答すること、といった実践的な推奨を提示します。これらは、資源が限られた言語に対して改善をもたらし得ます。本研究が、多言語合成データおよびLM開発におけるデータ中心の研究を前進させることを期待しています。