記憶するか、取り出すか:RAG配慮型事前学習のスケーリング則
arXiv cs.CL / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、総データ予算が固定されているときに、RAGシステムにおいて事前学習によるパラメトリックな知識と、検索による非パラメトリックな知識のバランスをどのように取るべきかを調査する。
- OLMo-2ベースの言語モデルを30Mから3Bパラメータまで学習し、最大100B DCLMトークンを用いながら、事前学習コーパスのサイズと検索ストアのサイズの両方を変化させ、その性能を推論、科学的QA、およびオープンドメインQAのベンチマークで評価する。
- 結果は、モデルサイズが異なる場合でも、検索はパラメータのみのベースラインに対して一貫して性能を押し上げることを示しており、著者らはモデルサイズ、事前学習トークン数、検索コーパスサイズの3次元のスケーリング枠組みを提案している。
- スケーリング「マニフォールド」は、事前学習と検索の間で最適なデータ配分戦略を推定するために用いられており、検索による限界的な利得は、モデル規模、タスク種別、そして事前学習がどの程度飽和しているかに依存する。
- 本研究は、よりスケーラブルな言語モデリングシステムを設計するために、検索が事前学習をどのような条件で、どのように補完すべきかについての定量的な指針を提供する。




