WRAP++：Webディスカバリ増幅プレトレーニング

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

WRAP++（Web discoveRy Amplified Pretraining）は、単一ドキュメントの書き換えにとどまる合成データの言い換えという制約を、Webハイパーリンクを用いたドキュメント横断の知識合成へと移行することで解決しようとする。
この手法は、高い確信度をもって複数ドキュメント間の関係性モチーフ（例：二重リンクや共同言及）を発見し、それらの組み合わせに基づく共同QAを生成することで、2つのドキュメントの間で推論することを強制する。
WRAP++は、どちらか一方のソースドキュメント単体には存在しない関係文脈を追加することで、同じ事実への新たな入口を作り、LLMが関連付けを学習する方法を改善することを目指す。
発見に基づくプロセスはデータセット規模も組合せ的に増大させ、論文ではWikipediaテキストを約84億トークンから約800億トークンのドキュメント横断QAへとスケールさせたことを報告している。
OLMoベースのモデル（7Bおよび32B）を用いたSimpleQAでの実験では、単一ドキュメント手法に対して実質的かつ持続的な改善が見られ、ドキュメント横断の知識増幅の利点が示されている。

要旨: 合成データの言い換えは、大規模言語モデル（LLM）の事前学習における知識獲得を強化するための強力な手法として注目されている。しかし、既存のアプローチは単一ドキュメントの水準で動作し、個々のウェブページを互いに独立して書き換える。このため、合成された例はドキュメント内部の知識に閉じてしまい、ドキュメントをまたぐ関係性が取りこぼされ、事実も関連付けの文脈が限定されたままとなる。本研究では、WRAP++（Web discovery Amplified Pretraining）を提案する。WRAP++は、ウェブ上のハイパーリンクからドキュメント間の関係を発見し、発見された各ドキュメント対に対して共同のQAを合成することで、事実知識の連想的文脈を増幅する。具体的には、WRAP++は二重リンクや共同言及を含む高確信度の関係モチーフを発見し、両方のドキュメントにまたがる推論を必要とするQAを合成する。これにより、単独の情報源ドキュメントのいずれにも存在しない関係知識が生成され、同一の事実への多様な入口が生まれる。有効なエンティティ対の数は組合せ的に増大するため、この発見駆動型の合成は、単一ドキュメントの書き換えをはるかに超えてデータ規模も大きく増幅する。 WRAP++をWikipediaに適用すると、生のテキスト約84億トークンを、ドキュメント間QAデータの800億トークンへと増幅できる。 SimpleQAでは、WRAP++で学習したOLMoベースのモデルが、7Bおよび32Bの双方の規模で、単一ドキュメント手法を大幅に上回り、スケーリングの改善が持続していることが示される。これは、ドキュメント間の知識発見と増幅の利点を裏付けるものである。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

WRAP++：Webディスカバリ増幅プレトレーニング

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」