記憶するか、取り出すか：RAG配慮型事前学習のスケーリング則

arXiv cs.CL / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、総データ予算が固定されているときに、RAGシステムにおいて事前学習によるパラメトリックな知識と、検索による非パラメトリックな知識のバランスをどのように取るべきかを調査する。
OLMo-2ベースの言語モデルを30Mから3Bパラメータまで学習し、最大100B DCLMトークンを用いながら、事前学習コーパスのサイズと検索ストアのサイズの両方を変化させ、その性能を推論、科学的QA、およびオープンドメインQAのベンチマークで評価する。
結果は、モデルサイズが異なる場合でも、検索はパラメータのみのベースラインに対して一貫して性能を押し上げることを示しており、著者らはモデルサイズ、事前学習トークン数、検索コーパスサイズの3次元のスケーリング枠組みを提案している。
スケーリング「マニフォールド」は、事前学習と検索の間で最適なデータ配分戦略を推定するために用いられており、検索による限界的な利得は、モデル規模、タスク種別、そして事前学習がどの程度飽和しているかに依存する。
本研究は、よりスケーラブルな言語モデリングシステムを設計するために、検索が事前学習をどのような条件で、どのように補完すべきかについての定量的な指針を提供する。

Abstract

生成拡張（RAG）は、知識集約的な状況においてテスト時に関連する文脈を提供することで、言語モデル（LM）の性能を向上させます。しかし、事前学習中に獲得されるパラメトリック知識と、検索によってアクセスされる非パラメトリック知識との関係は、特に固定のデータ予算の下では、いまだ十分に解明されていません。本研究では、モデル規模とデータ規模の幅広い範囲にわたって、事前学習コーパスのサイズと検索ストアのサイズの間のトレードオフを体系的に調べます。具体的には、DCLMデータの最大100Bトークンを用いて、30Mから3BパラメータまでのOLMo-2ベースのLMを学習し、事前学習データ規模（パラメータ数に対して1〜150倍）と検索ストアのサイズ（1〜20倍）の両方を変化させながら、推論、科学的QA、オープンドメインQAにまたがる多様なベンチマークで性能を評価します。その結果、検索はモデル規模の全範囲において、パラメトリックのみのベースラインに対して一貫して性能を改善することが分かりました。また、モデルサイズ、事前学習トークン数、検索コーパスサイズの関数として性能をモデル化する、3次元のスケーリング枠組みを導入します。このスケーリング多様体により、固定されたデータ予算を事前学習と検索の間で最適配分することを推定でき、その結果、検索の限界効用はモデル規模、タスクの種類、事前学習の飽和度に強く依存することが明らかになりました。本研究の成果は、検索がいつ、どのように事前学習を補完すべきかを理解するための定量的な基盤を提供し、スケーラブルな言語モデリングシステムの設計においてデータ資源を配分するための実践的な指針を示します。