Aleph-Alpha-GermanWeb：モデルベースのデータキュレーションと合成データ生成によるドイツ語LLM事前学習の改善

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、学習効率と下流性能を改善するために、ヒューリスティックによるフィルタリング、モデルベースのフィルタリング、合成データ生成を組み合わせたドイツ語LLM向けデータ・キュレーションのパイプラインを提案する。
「Aleph-Alpha-GermanWeb」は、オーガニックなCommon CrawlおよびFineWeb2サブセットから作成した628B語のドイツ語事前学習データセットであり、さらに実際のオーガニックなWebデータを条件付けとして生成した合成サブセットを加えている。
著者らは、このデータセットを、1Bの「Llamaスタイル」モデルと、8Bのトークナイザ不要の階層的自己回帰トランスフォーマ（HAT）をスクラッチで学習し、その後MMMLUを含むドイツ語ベンチマークで評価することで検証する。
結果として、Aleph-Alpha-GermanWebはFineWeb2単独に比べて有意な改善をもたらし、この改善は、Wikipediaのような人手でキュレーションされた情報源でFineWeb2を強化した場合でも、8Bスケールまで維持される。
本研究は、モデルベースのキュレーションと合成データ生成がドイツ語LLMの事前学習データセットを実質的に改善し得ると結論づけており、他の言語／領域での類似研究によるより広範な知見とも整合することを示している。

要旨: データ量のスケーリングは大規模言語モデル（LLM）にとって不可欠ですが、近年の研究では、データ品質が性能と学習効率を大幅に向上させ得ることが示されています。本研究では、ヒューリスティックとモデルに基づくフィルタリング手法を、合成データ生成と組み合わせたドイツ語データセットのキュレーション（選別・編集）パイプラインを提案します。私たちはこのパイプラインを用いて、Aleph-Alpha-GermanWeb（628Bワードのドイツ語事前学習データセット）を作成しました。これは、以下の3つのサブセットからなるものです：（1）Common Crawlのウェブデータ（オーガニック・サブセット；78Bワード）、（2）FineWeb2（オーガニック・サブセット；235B）、（3）実際のオーガニックなウェブデータに条件付けされた合成データ（合成サブセット；329B）。
私たちは、このデータセットを、1BのLlamaスタイルモデルおよび、8Bトークン処理器（tokeniser）なしの階層的自己回帰トランスフォーマ（HAT）をそれぞれスクラッチから事前学習することで評価しました。MMMLUを含むドイツ語ベンチマークでの比較により、FineWeb2単独に対してAleph-Alpha-GermanWebが大きな性能向上を示すことが分かりました。この優位性は、Wikipediaのような人手でキュレーションされた高品質データソースによってFineWeb2が強化されている場合でも、8Bスケールにおいて維持されます。私たちの結果は、モデルに基づくデータキュレーションと合成データ生成が、LLMの事前学習データセットを大幅に強化し得るという、増えつつあるエビデンスを裏付けるものです。