WRAP++:Webディスカバリ増幅プレトレーニング

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • WRAP++(Web discoveRy Amplified Pretraining)は、単一ドキュメントの書き換えにとどまる合成データの言い換えという制約を、Webハイパーリンクを用いたドキュメント横断の知識合成へと移行することで解決しようとする。
  • この手法は、高い確信度をもって複数ドキュメント間の関係性モチーフ(例:二重リンクや共同言及)を発見し、それらの組み合わせに基づく共同QAを生成することで、2つのドキュメントの間で推論することを強制する。
  • WRAP++は、どちらか一方のソースドキュメント単体には存在しない関係文脈を追加することで、同じ事実への新たな入口を作り、LLMが関連付けを学習する方法を改善することを目指す。
  • 発見に基づくプロセスはデータセット規模も組合せ的に増大させ、論文ではWikipediaテキストを約84億トークンから約800億トークンのドキュメント横断QAへとスケールさせたことを報告している。
  • OLMoベースのモデル(7Bおよび32B)を用いたSimpleQAでの実験では、単一ドキュメント手法に対して実質的かつ持続的な改善が見られ、ドキュメント横断の知識増幅の利点が示されている。

要旨: 合成データの言い換えは、大規模言語モデル(LLM)の事前学習における知識獲得を強化するための強力な手法として注目されている。 しかし、既存のアプローチは単一ドキュメントの水準で動作し、個々のウェブページを互いに独立して書き換える。 このため、合成された例はドキュメント内部の知識に閉じてしまい、ドキュメントをまたぐ関係性が取りこぼされ、事実も関連付けの文脈が限定されたままとなる。 本研究では、WRAP++(Web discovery Amplified Pretraining)を提案する。WRAP++は、ウェブ上のハイパーリンクからドキュメント間の関係を発見し、発見された各ドキュメント対に対して共同のQAを合成することで、事実知識の連想的文脈を増幅する。 具体的には、WRAP++は二重リンクや共同言及を含む高確信度の関係モチーフを発見し、両方のドキュメントにまたがる推論を必要とするQAを合成する。 これにより、単独の情報源ドキュメントのいずれにも存在しない関係知識が生成され、同一の事実への多様な入口が生まれる。 有効なエンティティ対の数は組合せ的に増大するため、この発見駆動型の合成は、単一ドキュメントの書き換えをはるかに超えてデータ規模も大きく増幅する。 WRAP++をWikipediaに適用すると、生のテキスト約84億トークンを、ドキュメント間QAデータの800億トークンへと増幅できる。 SimpleQAでは、WRAP++で学習したOLMoベースのモデルが、7Bおよび32Bの双方の規模で、単一ドキュメント手法を大幅に上回り、スケーリングの改善が持続していることが示される。 これは、ドキュメント間の知識発見と増幅の利点を裏付けるものである。