要旨: データ拡張としての合成データ拡張は、事前学習がデータによって制約され、計算資源では制約されない場合に有望な解決策として浮上してきた。私たちは、有限の計算資源で損失を下げるだけでなく、計算資源が無限大に近づくときにより良い損失スケーリングを達成する合成データアルゴリズムの設計方法を検討します。まず、ウェブデータと合成的に生成されたリフレーズを混合して事前訓練を行うことが、合成データが全く異なる分布から来るにもかかわらず、ウェブデータに対する独立同分布(i.i.d.)検証損失を改善することを示します。最適な混合とエポック設定により、合成生成の数が増えるにつれて過学習せずに損失とベンチマーク精度が向上し、1文書あたり32のリフレーズでデータ効率は約1.48\timesに停滞します。新しい視点の下で、同じ文書からの合成生成は、多くの短い文書の代わりに、1つのかなり長いメガドキュメントを形成することができるという、さらに優れた損失スケーリングを見出します。メガドキュメントを構築する2つの方法を示します:同じウェブ文書からの合成リフレーズをつなぎ合わせる方法、または合理的な根拠を挿入して文書を引き伸ばす方法。どちらの方法もi.i.d.損失、下流のベンチマーク、特に長い文脈損失を、単純なリフレージングと比較して改善し、文書あたり32世代でデータ効率を1.48\timesから1.80\timesへ高めます。重要なのは、メガドキュメントによる改善は、より多くの合成データが生成されるほど、単純なリフレージングよりも広がることです。私たちの結果は、データが制約されている場合に、計算の増大からより大きな恩恵を受ける合成データアルゴリズムを設計する方法を示します。
返却形式: {"translated": "翻訳されたHTML"}