高品質な事前学習データをどう合成できるか？プロンプト設計、生成モデル、ソースデータに関する体系的研究

arXiv cs.CL / 2026/4/16

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、ウェブテキストから高品質なLLM事前学習データを合成する方法について、プロンプト設計、生成（ジェネレータ）モデルの選択、ソースデータの混合方法を変化させながら検証する、制御された大規模な体系的研究（1兆トークン超）を提示している。

要旨: 合成データは大規模言語モデルの学習における標準的な構成要素ですが、言い換え戦略、生成モデル、元データといった設計次元にまたがる体系的な比較は依然として欠けています。我々は、10億トークンを超える規模での生成を含む大規模な厳密な制御実験を実施し、ウェブ文書を合成事前学習データへ言い換える際の重要な要因を特定します。その結果、表、数学問題、FAQ、チュートリアルといった構造化された出力形式が、厳選されたウェブのベースラインおよびこれまでの合成手法の双方を一貫して上回ることが分かりました。特に、生成モデルを1B（10億）パラメータを超える規模に増やしても、追加の有益性は得られません。また、混合に用いる元データの選択が性能に大きく影響することも示します。これらの知見を適用し、\textbf{\textsc{FinePhrase}} を開発しました。これは、言い換えられたウェブ文の 4860 億トークンからなる公開データセットです。我々は \textsc{FinePhrase} が、既存のすべての合成データのベースラインを上回りつつ、生成コストを最大30分の1まで削減できることを示します。さらに、データセット、すべてのプロンプト、および生成フレームワークを研究コミュニティに提供します。

Black Hat USA

AI Business

Black Hat Asia

AI Business

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ

日経XTECH

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃

日経XTECH

oh-my-agent は Homebrew-core で正式対応に：マルチエージェント・オーケストレーションの新たなマイルストーン

Dev.to

高品質な事前学習データをどう合成できるか？プロンプト設計、生成モデル、ソースデータに関する体系的研究

要点

関連記事

Black Hat USA

Black Hat Asia

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃

oh-my-agent は Homebrew-core で正式対応に：マルチエージェント・オーケストレーションの新たなマイルストーン

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

AIで研修刷新 サイバーエージェントは上流重視、サイボウズはClaude中心へ

米アンソロピックがMythos発表に続き「Cowork」一般提供 「SaaSの死」再燃

oh-my-agent は Homebrew-core で正式対応に：マルチエージェント・オーケストレーションの新たなマイルストーン

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIで研修刷新サイバーエージェントは上流重視、サイボウズはClaude中心へ

米アンソロピックがMythos発表に続き「Cowork」一般提供「SaaSの死」再燃