データダーウィニズム 第2部: DataEvolve — AIは事前学習データのキュレーションを自律的に進化させる
arXiv cs.AI / 2026/3/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- DataEvolveは、カテゴリ別のループと経験・戦略のプールを活用した反復最適化により、データキュレーション戦略の進化を自動化します。
- 6720億トークンの Nemotron-CC コーパス内の8カテゴリに適用され、各カテゴリ30回の反復後に Darwin-CC(5040億トークン)を生成しました。
- Darwin-CCを用いて5000億トークンのデータで3Bパラメータのモデルを訓練すると、生データに対して+3.96ポイント、18のベンチマークで平均44.13を達成し、知識集約タスクのMMLUなどで顕著な向上が見られました。
- 進化した戦略は、ノイズ除去とドメイン知識を踏まえた保存を組み込んだフォーマット正規化へと収束し、第I部のGenerative Refinement原則と一致します。
- アブレーション研究は、反復的な進化が不可欠であることを示しており、最適化された戦略は未最適な戦略を2.93ポイント上回ること、そして大規模データキュレーションに対する進化設計の実現可能性を示しています。
アナウンスの種類: new
要約: Data Darwinism (Part I) はデータ処理の10段階の階層を確立し、より強力な処理がより大きなデータ価値を引き出せることを示した。しかし、その研究は単一のカテゴリに対して手動で設計された戦略に依存していた。現代の事前学習コーパスは、ドメインとコンテンツタイプを横断する数百の異種カテゴリから構成され、各カテゴリには専門的な処理が要求されます。この規模では、手動による戦略設計は実用的でなくなります。これには重要な疑問が生じます:戦略は自動的に進化することができるのでしょうか。私たちはDataEvolveを紹介します。これは手動設計の代わりに反復最適化を通じて戦略を進化させることを可能にするフレームワークです。各データカテゴリについて、DataEvolveは閉じた進化ループの中で動作します:品質問題を識別し、候補戦略を生成し、サンプリングデータ上でそれらを実行し、結果を評価し、世代を超えてアプローチを洗練させます。プロセスは、発見された問題の経験プールと、反復を通じて性能を追跡する戦略プールという知識の蓄積を行います。 Nemotron-CC由来の6720億トークンを含む8カテゴリへ適用されたDataEvolveは、カテゴリごとに30回の反復で進化した戦略を備えた504BトークンのデータセットであるDarwin-CCを生み出します。 3Bモデルを500Bトークンで訓練すると、Darwin-CCは生データを+3.96ポイント上回り、18のベンチマークで平均スコア44.13を達成し、DCLM、Ultra-FineWeb、FineWeb-Eduを凌駕します。知識集約型タスク(例:MMLU)で顕著な改善を示します。 分析によれば、進化した戦略はクリーンアップ志向のアプローチに収束します。具体的には、標的を絞ったノイズ除去とドメインを意識した保持を伴う形式の正規化で、Part IのL4(Generative Refinement)原理を反映しています。 アブレーション研究は、反復的な進化が不可欠であることを確認します。最適化された戦略は劣悪な戦略を2.93ポイント上回る。事前学習規模のデータキュレーションにおける進化的戦略設計が実現可能であり、必要であることを確立します。

