AI Navigate

FLUX: データの価値に基づく学習

arXiv cs.CL / 2026/3/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • FLUX は、厳格な品質管理を行いトークン保持を最大化することで、現代の LLM 訓練におけるデータ品質と規模の伝統的なトレードオフを打破することを目的とした前処理パイプラインです。
  • 実験では、60B の FLUX でキュレーションされたトークンを使って学習した 3B パラメータモデルが 32.14% の MMLU を達成し、DCLM(31.98%)および FineWeb(29.88%)を上回って、性能の向上を示しました。
  • FLUX は訓練計算量を 34.4% 削減して、DCLM 訓練モデルが 39B トークンを用いた場合と同等の総合スコアを達成し、効率の向上を示しています。
  • データレベルでは、FLUX は CC-MAIN-2025-51 から 50B の利用可能トークンを抽出し、DCLM の 40B より多く(保持率は +25%)、FLUX-Base は 192B トークンを生み出し、FineWeb の 170B を上回りつつ品質も上回っています。
  • 全体として、FLUX はウェブ規模データ前処理の新たな最先端を確立し、高い保持率、厳格な品質管理、計算効率を同時に達成できることを示し、現代の言語モデル向けのスケーラブルなデータセット構築を再定義します。

要旨:
現代の大規模言語モデルの訓練は、データの入手可能性によって制約される時代ではなく、既存の前処理パイプラインが巨大なスケールと高品質なデータを同時に達成することができないという点により制約されています。現在のアプローチは、どちらか一方を犠牲にせざるを得ません:品質を向上させるために過度にフィルタリングして甚大なトークン損失を招くか、あるいはデータ量を大量に保持しつつ著しいノイズを導入するか。本研究では、長年のこのトレードオフを破るように、厳格な品質管理を徹底しつつトークン保持を最大化するよう設計された前処理パイプラインFLUXを紹介します。FLUXでキュレーションされたデータで訓練されたモデルは、従来の方法を常に上回ります。FLUXを用いて60Bトークンで訓練された3Bパラメータのモデルは、32.14%のMMLU精度を達成し、前実装最先端のパイプラインDCLM(31.98%)を上回り、さらにFineWeb(29.88%)を著しく上回ります。FLUXは、DCLMデータで訓練されたモデルと同じ総合スコアを、わずか39Bトークンで達成し、訓練計算量を34.4%削減します。データレベルでは、FLUXは単一のダンプ(CC-MAIN-2025-51)から50Bの有用トークンを抽出します。DCLMの40Bと比較して保持量は25%増加します。FLUX-Baseは192Bトークンを生み出し、FineWebの170Bを上回りつつ、なお品質も優れています。総じて、FLUXは高い保持量、厳格な品質管理、計算効率を同時に達成可能であることを示すことにより、ウェブ規模データ前処理の新しい最先端を確立し、現代の言語モデルのためのスケーラブルなデータセット構築の限界を再定義します。