PRISM: 中間トレーニングにおける保持と相互作用の解明

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • PRISM は大規模言語モデルの中間トレーニング設計選択を実証的に検討する研究で、4つのファミリーに属する7つのベースモデル、2つのアーキテクチャ、30億〜240億パラメータのスケールで統制実験を行った。
  • 約270億の高品質トークンでの中間トレーニングは、数学ベンチマークで +15〜+40 点、コードで +5〜+12、科学で +6〜+13 の一貫した改善をもたらし、一般的な性能を維持する。
  • RL を PRISM の全パイプラインで適用すると、マクロ平均推論スコアは 12 未満から 29–42 へと上昇する一方、基盤モデルに直接 RL を適用するだけでは効果が大きく低い。中間トレーニング中のデータ構成、特に科学データを含むことが、これらの改善を促進する。
  • 機構的には、中間トレーニングはモデルの重みの 90%以上を密に再構成し、RL の修正は約 5% のパラメータに影響を及ぼし、RL は中間トレーニングで得た表現幾何を保持する(CKA > 0.998)、かつ RL は中間トレーニング済みモデルでのみ成功する。これは、信頼性の高い推論能力向上のためには、保持を意識した中間トレーニングの価値を強調する。

要旨: 我々は、PRISMを紹介します。巨大言語モデルの中間トレーニング設計選択に関する包括的な実証研究です。厳密な実験を通じて、7つの基本モデルを4つのファミリーに跨り、2つのアーキテクチャタイプ(密結合型TransformerとAttention-Mambaハイブリッド)、および3Bから24Bパラメータ規模を横断して、約270億個の高品質トークンでの中間トレーニングが、数学ベンチマークで+15〜+40ポイント、コードで+5〜+12ポイント、科学のベンチマークで+6〜+13ポイントの一貫した向上をもたらし、全体的なパフォーマンスを維持することを示します。PRISMからRLへの全体的なパイプラインは、6つの推論ベンチマークのマクロ平均を12未満から29〜42へ改善し(3〜4倍の改善)、一方でベースモデルの多くに対して直接RLを適用すると効果は著しく低く、AIMEスコアはほぼゼロです。データ組成は中間トレーニング時に最も重要であり、RLではありません。中間トレーニング中に科学データを含めると、RL時にGPQA-Diamondで+17〜+28ポイントの獲得が開かれ、RLミックスを変更しても差は2ポイント未満です。機械的には、中間トレーニングはモデルの重みの90%以上を密に再構成します。一方、RLは約5%のパラメータに対してスパースで前方寄りの改良を行います。表現分析(CKA)は、RLがアーキテクチャを跨いでも中間トレーニングの表現幾何を一貫して維持することを確認します(CKAは0.998を超えます)。重要な点として、RLは開始点に関係なく同一の重み変化を適用しますが、中間トレーニング済みのモデルでのみ成功します。これは、中間トレーニングがRLが効果的に性能を向上させられる構成へモデルを配置することと一致します。我々の結果は、保持を意識した中間トレーニングが信頼性の高い推論能力の向上に非常に効果的であることを示し、堅牢な中間トレーニングパイプラインを設計するための実践的な指針を提供します。)