AI Navigate

合成メガドキュメントのスケーリングによるデータ効率の高い事前学習

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、事前学習における損失スケーリングを改善するための合成データ拡張を検討し、データが制約された設定で計算資源が増えるにつれて恩恵が大きくなることに焦点を当てる。
  • ウェブデータと合成的に生成された言い換えを混合すると、合成データが異なる分布から来たとしてもウェブデータ上の i.i.d. 検証損失が改善されることを示している。
  • 最適な混合とエポック設定により、合成生成回数が増加しても過剰適合なく、損失とベンチマーク精度が改善され、文書あたり32の言い換えで約1.48倍のデータ効率を達成する。
  • 著者らは、同一ドキュメントからの合成生成を結合して、根拠を添えた長い1つの文書として構成する『Megadocs』を提案する。作成方法は、ステッチングまたは根拠づけを伴うストレッチングを用いる。
  • Megadocs は i.i.d. 損失、下流ベンチマーク、長い文脈の損失において、単純な言い換えを上回り、文書あたり32回の生成で約1.80倍のデータ効率を達成し、より多くの合成データでその効果を拡大する。

要旨: データ拡張としての合成データ拡張は、事前学習がデータによって制約され、計算資源では制約されない場合に有望な解決策として浮上してきた。私たちは、有限の計算資源で損失を下げるだけでなく、計算資源が無限大に近づくときにより良い損失スケーリングを達成する合成データアルゴリズムの設計方法を検討します。まず、ウェブデータと合成的に生成されたリフレーズを混合して事前訓練を行うことが、合成データが全く異なる分布から来るにもかかわらず、ウェブデータに対する独立同分布(i.i.d.)検証損失を改善することを示します。最適な混合とエポック設定により、合成生成の数が増えるにつれて過学習せずに損失とベンチマーク精度が向上し、1文書あたり32のリフレーズでデータ効率は約1.48\timesに停滞します。新しい視点の下で、同じ文書からの合成生成は、多くの短い文書の代わりに、1つのかなり長いメガドキュメントを形成することができるという、さらに優れた損失スケーリングを見出します。メガドキュメントを構築する2つの方法を示します:同じウェブ文書からの合成リフレーズをつなぎ合わせる方法、または合理的な根拠を挿入して文書を引き伸ばす方法。どちらの方法もi.i.d.損失、下流のベンチマーク、特に長い文脈損失を、単純なリフレージングと比較して改善し、文書あたり32世代でデータ効率を1.48\timesから1.80\timesへ高めます。重要なのは、メガドキュメントによる改善は、より多くの合成データが生成されるほど、単純なリフレージングよりも広がることです。私たちの結果は、データが制約されている場合に、計算の増大からより大きな恩恵を受ける合成データアルゴリズムを設計する方法を示します。

返却形式: {"translated": "翻訳されたHTML"}