反復の優位性:サンプル効率の高いドイツ語言語モデリングのための高シグナルなデータ・フィルタリング

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、ドイツ語(および他の非英語言語)において「厳しく品質フィルタした高品質データを複数エポック繰り返す」か、「より多様な大規模データを1回学習するか」という戦略上のトレードオフを検証しています。
  • 500M件のドイツ語ウェブ文書に対して階層的な品質フィルタを構築し、多様データの単回学習と、フィルタ済みサブセットの複数エポック学習を、モデル規模やトークン予算を変えて比較しました。
  • 実験の結果、高品質データの反復学習が、より少ないフィルタで得た大きなデータでの単回学習を一貫して上回り、その優位性は7エポック後でも維持されました。
  • 本結果は、非英語LLMの言語モデリングでは、ユニークなデータ量を最大化するよりも、品質フィルタによるセマンティックな集中(高品質化)がサンプル効率の高い道であることを示唆しています。
  • 著者らはドイツ語モデル(「Boldt」)と、クリーニング済みの評価ベンチマークを研究コミュニティに公開し、比較可能なモデルに比べて10〜360倍少ないトークンで学習しながらSOTA相当の成果を報告しています。