SPELL: 長い文脈を持つ言語モデルの進化を可能にする自己対戦強化学習
arXiv cs.CL / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- SPELLは、1つのモデル内に質問者、応答者、検証者を統合することで、長い文脈推論をラベル不要で最適化する多役割の自己対戦強化学習フレームワークです。
- 文書の長さを徐々に増やす自動カリキュラムと、モデルの進化する能力に合わせて質問の難易度を調整する適応報酬関数を用い、トレーニングを安定化させる。
- 6つの長文脈ベンチマークでの実験は、SPELLが多様なLLMにわたって性能を改善し、注釈データで微調整された同等サイズのモデルを上回ることを示しており、Qwen3-30B-A3B-Thinkingではpass@8が7.6ポイント向上している。
- 著者はコードをGitHubで公開しており、再現性とより広範な実験を可能にしている。




