LLMの共進化におけるカリキュラム多様性のための語彙ドロップアウト

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMのカリキュラム学習における共進化的な自己対戦(self-play)を研究している。そこでは、一方のモデルが数学の問題を提案し、もう一方のモデルがそれを解く。さらに、訓練が「多様性の崩壊(diversity collapse)」に陥りうることを示し、提案者が報酬を満たすことだけに収束して、問題分布が狭いものに固定されてしまう。
  • 「語彙ドロップアウト(vocabulary dropout)」を導入する。これは、提案者の出力ロジットに対して、ハードで非定常なランダムマスキングを行う手法であり、政策学習とカリキュラム生成の両方で適用することで、提案者が固定されたトークン列にロックインするのを防ぐ。
  • 実験では、数学的推論に関してR-ZeroでQwen3-4BおよびQwen3-8Bを学習させる。結果として、語彙ドロップアウトは、学習期間を通じて、語彙的・意味的・機能的な指標のいずれにおいても提案者の多様性を維持することが示される。
  • この手法は、8Bモデルのソルバを平均で+4.4ポイント改善し、特に競技レベルのベンチマークで最大の向上が得られる。
  • 著者らは、古典的な自己対戦におけるゲームのルールに相当するような、行動空間に対する明示的な制約を追加することで、生産的な共進化を維持し、かつカリキュラムをソルバにとって有益なものにできると主張している。