要旨: 合成データは大規模言語モデルの学習における標準的な構成要素ですが、言い換え戦略、生成モデル、元データといった設計次元にまたがる体系的な比較は依然として欠けています。我々は、10億トークンを超える規模での生成を含む大規模な厳密な制御実験を実施し、ウェブ文書を合成事前学習データへ言い換える際の重要な要因を特定します。その結果、表、数学問題、FAQ、チュートリアルといった構造化された出力形式が、厳選されたウェブのベースラインおよびこれまでの合成手法の双方を一貫して上回ることが分かりました。特に、生成モデルを1B(10億)パラメータを超える規模に増やしても、追加の有益性は得られません。また、混合に用いる元データの選択が性能に大きく影響することも示します。これらの知見を適用し、\textbf{\textsc{FinePhrase}} を開発しました。これは、言い換えられたウェブ文の 4860 億トークンからなる公開データセットです。我々は \textsc{FinePhrase} が、既存のすべての合成データのベースラインを上回りつつ、生成コストを最大30分の1まで削減できることを示します。さらに、データセット、すべてのプロンプト、および生成フレームワークを研究コミュニティに提供します。
高品質な事前学習データをどう合成できるか?プロンプト設計、生成モデル、ソースデータに関する体系的研究
arXiv cs.CL / 2026/4/16
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、ウェブテキストから高品質なLLM事前学習データを合成する方法について、プロンプト設計、生成(ジェネレータ)モデルの選択、ソースデータの混合方法を変化させながら検証する、制御された大規模な体系的研究(1兆トークン超)を提示している。




