WIST:ドメイン特化型推論改善のための、Webに基づく反復的自己プレイ・ツリー

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • WIST(Web-grounded Iterative Self-play Tree)は、厳選されたドメインコーパスに依存せずに、公開ウェブから直接学習することで、ドメイン特化型推論を改善するための強化学習フレームワークを提案する。
  • 本手法は段階的にドメイン探索ツリーを構築し、経路整合的(path-consistent)なウェブテキストを取得・クリーニングして制御可能な学習環境を形成し、その後、検証可能な報酬を用いたChallenger–Solverの自己プレイを実行する。
  • WISTは学習可能性(learnability)の信号をフィードバックしてノードの事後分布(node posterior)を更新し、適応的カリキュラムによってその後の探索を導くことで、純粋に内生的な自己プレイで起きがちなドリフトを防ぐことを狙う。
  • 4つのモデル・バックボーンにわたる実験では、ベースライン・モデルに対して一貫した改善が示されており、報告されている全体的な改善幅は最大で約+9.8(Qwen3-4B-Base)および+9.7(OctoThinker-8B)である。
  • このアプローチはドメインを制御(steer)でき、専門領域ではより大きな改善が得られる(例:Qwen3-8B-Baseで医療分野に+14.79)。アブレーション結果は中核コンポーネントの寄与を支持しており、コードはGitHubで公開されている。

要旨: 検証可能な報酬による強化学習(RLVR)における最近の進展は、言語モデルの自己改善への実用的な道筋を提供しますが、既存手法には重要なトレードオフがあります。内生的な自己対戦は反復を重ねる中でドリフトしてしまう一方、コーパスに基づくアプローチは、厳選されたデータ環境に依存しています。私たちは、事前に用意されたドメインのコーパスを必要とせずに、オープンウェブから直接学習する、ドメインを対象とした推論改善のための
\textbf{WIST}(\textbf{W}ebに基づく\textbf{I}terative\textbf{S}elf-play\textbf{T}ree フレームワーク)を提示します。WISTは探索のためにドメインツリーを段階的に拡張し、経路整合的なウェブコーパスを取得してクレンジングすることで、制御可能な学習環境を構築します。その後、検証可能な報酬を用いたChallenger--Solverの自己対戦を実行し、学習可能性に関する信号をノードの事後分布を更新するためにフィードバックし、適応的なカリキュラムによってその後の探索を導きます。4つのバックボーンにおいて、WISTは一貫してベースモデルより改善し、また純粋な内生的自己進化およびコーパスに基づく自己対戦のベースラインの両方を概ね上回ります。総合的な向上は\textbf{+9.8}(\textit{Qwen3-4B-Base})および\textbf{+9.7}(\textit{OctoThinker-8B})に達します。WISTはさらにドメインを制御でき、医学では\textit{Qwen3-8B-Base}が\textbf{+14.79}、PhyBenchでは\textit{Qwen3-4B-Base}が\textbf{+5.28}改善します。アブレーションはまた、安定したオープンウェブ学習においてWISTの主要コンポーネントが重要であることをさらに裏付けます。私たちのコードは https://github.com/lfy-123/WIST で公開されています。