合成メガドキュメントのスケーリングによるデータ効率の高い事前学習

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、事前学習における損失スケーリングを改善するための合成データ拡張を検討し、データが制約された設定で計算資源が増えるにつれて恩恵が大きくなることに焦点を当てる。
ウェブデータと合成的に生成された言い換えを混合すると、合成データが異なる分布から来たとしてもウェブデータ上の i.i.d. 検証損失が改善されることを示している。
最適な混合とエポック設定により、合成生成回数が増加しても過剰適合なく、損失とベンチマーク精度が改善され、文書あたり32の言い換えで約1.48倍のデータ効率を達成する。
著者らは、同一ドキュメントからの合成生成を結合して、根拠を添えた長い1つの文書として構成する『Megadocs』を提案する。作成方法は、ステッチングまたは根拠づけを伴うストレッチングを用いる。
Megadocs は i.i.d. 損失、下流ベンチマーク、長い文脈の損失において、単純な言い換えを上回り、文書あたり32回の生成で約1.80倍のデータ効率を達成し、より多くの合成データでその効果を拡大する。

要旨: データ拡張としての合成データ拡張は、事前学習がデータによって制約され、計算資源では制約されない場合に有望な解決策として浮上してきた。私たちは、有限の計算資源で損失を下げるだけでなく、計算資源が無限大に近づくときにより良い損失スケーリングを達成する合成データアルゴリズムの設計方法を検討します。まず、ウェブデータと合成的に生成されたリフレーズを混合して事前訓練を行うことが、合成データが全く異なる分布から来るにもかかわらず、ウェブデータに対する独立同分布（i.i.d.）検証損失を改善することを示します。最適な混合とエポック設定により、合成生成の数が増えるにつれて過学習せずに損失とベンチマーク精度が向上し、1文書あたり32のリフレーズでデータ効率は約 $1.48\times$ に停滞します。新しい視点の下で、同じ文書からの合成生成は、多くの短い文書の代わりに、1つのかなり長いメガドキュメントを形成することができるという、さらに優れた損失スケーリングを見出します。メガドキュメントを構築する2つの方法を示します：同じウェブ文書からの合成リフレーズをつなぎ合わせる方法、または合理的な根拠を挿入して文書を引き伸ばす方法。どちらの方法もi.i.d.損失、下流のベンチマーク、特に長い文脈損失を、単純なリフレージングと比較して改善し、文書あたり32世代でデータ効率を $1.48\times$ から $1.80\times$ へ高めます。重要なのは、メガドキュメントによる改善は、より多くの合成データが生成されるほど、単純なリフレージングよりも広がることです。私たちの結果は、データが制約されている場合に、計算の増大からより大きな恩恵を受ける合成データアルゴリズムを設計する方法を示します。

返却形式: {"translated": "翻訳されたHTML"}

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

合成メガドキュメントのスケーリングによるデータ効率の高い事前学習

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも