AI Navigate

SPELL: 長い文脈を持つ言語モデルの進化を可能にする自己対戦強化学習

arXiv cs.CL / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • SPELLは、1つのモデル内に質問者、応答者、検証者を統合することで、長い文脈推論をラベル不要で最適化する多役割の自己対戦強化学習フレームワークです。
  • 文書の長さを徐々に増やす自動カリキュラムと、モデルの進化する能力に合わせて質問の難易度を調整する適応報酬関数を用い、トレーニングを安定化させる。
  • 6つの長文脈ベンチマークでの実験は、SPELLが多様なLLMにわたって性能を改善し、注釈データで微調整された同等サイズのモデルを上回ることを示しており、Qwen3-30B-A3B-Thinkingではpass@8が7.6ポイント向上している。
  • 著者はコードをGitHubで公開しており、再現性とより広範な実験を可能にしている。

Abstract

要約: 大規模言語モデル(LLMs)の長い文脈推論における進展は、他の最近の進歩に後れを取っています。このギャップは、長いテキストの処理の本質的な難しさだけでなく、信頼性のある人間の注釈の不足と、プログラム的に検証可能な報酬信号の不足にも起因します。本論文では、長い文脈推論のためのスケーラブルでラベルフリーの最適化を可能にするマルチロール自己対戦強化学習フレームワーク SPELL を提案します。SPELL は、継続的な自己改善を実現するために、単一のモデル内に三つの循環的役割—質問者、回答者、検証者—を統合します。質問者は、参照解答と対になる生データ文書から質問を生成します。回答者は文書に基づいてこれらの質問を解くことを学習します。そして検証者は、回答者の出力と質問者の参照解答との意味的同等性を評価し、継続的な訓練を導く報酬信号を生成します。訓練を安定化させるために、文書の長さを徐々に増やす自動カリキュラムと、モデルの進化する能力に合わせて質問の難易度を適応させる報酬関数を導入します。6つの長文脈ベンチマークでの広範な実験により、SPELL は多様な LLMs の性能を一貫して改善し、大規模な注釈データでファインチューニングされた同規模のモデルを上回ることを示しました。特に、SPELL は強力な推論モデル Qwen3-30B-A3B-Thinking における pass@8 の平均7.6ポイントの向上を達成し、その性能の天井を引き上げ、さらにより高機能なモデルへとスケーリングする可能性を示しています。我々のコードは https://github.com/Tongyi-Zhiwen/Qwen-Doc で公開されています。