WIST：ドメイン特化型推論改善のための、Webに基づく反復的自己プレイ・ツリー

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

WIST（Web-grounded Iterative Self-play Tree）は、厳選されたドメインコーパスに依存せずに、公開ウェブから直接学習することで、ドメイン特化型推論を改善するための強化学習フレームワークを提案する。
本手法は段階的にドメイン探索ツリーを構築し、経路整合的（path-consistent）なウェブテキストを取得・クリーニングして制御可能な学習環境を形成し、その後、検証可能な報酬を用いたChallenger–Solverの自己プレイを実行する。
WISTは学習可能性（learnability）の信号をフィードバックしてノードの事後分布（node posterior）を更新し、適応的カリキュラムによってその後の探索を導くことで、純粋に内生的な自己プレイで起きがちなドリフトを防ぐことを狙う。
4つのモデル・バックボーンにわたる実験では、ベースライン・モデルに対して一貫した改善が示されており、報告されている全体的な改善幅は最大で約+9.8（Qwen3-4B-Base）および+9.7（OctoThinker-8B）である。
このアプローチはドメインを制御（steer）でき、専門領域ではより大きな改善が得られる（例：Qwen3-8B-Baseで医療分野に+14.79）。アブレーション結果は中核コンポーネントの寄与を支持しており、コードはGitHubで公開されている。

要旨: 検証可能な報酬による強化学習（RLVR）における最近の進展は、言語モデルの自己改善への実用的な道筋を提供しますが、既存手法には重要なトレードオフがあります。内生的な自己対戦は反復を重ねる中でドリフトしてしまう一方、コーパスに基づくアプローチは、厳選されたデータ環境に依存しています。私たちは、事前に用意されたドメインのコーパスを必要とせずに、オープンウェブから直接学習する、ドメインを対象とした推論改善のための
\textbf{WIST}（\textbf{W}ebに基づく\textbf{I}terative\textbf{S}elf-play\textbf{T}ree フレームワーク）を提示します。WISTは探索のためにドメインツリーを段階的に拡張し、経路整合的なウェブコーパスを取得してクレンジングすることで、制御可能な学習環境を構築します。その後、検証可能な報酬を用いたChallenger--Solverの自己対戦を実行し、学習可能性に関する信号をノードの事後分布を更新するためにフィードバックし、適応的なカリキュラムによってその後の探索を導きます。4つのバックボーンにおいて、WISTは一貫してベースモデルより改善し、また純粋な内生的自己進化およびコーパスに基づく自己対戦のベースラインの両方を概ね上回ります。総合的な向上は\textbf{+9.8}（\textit{Qwen3-4B-Base}）および\textbf{+9.7}（\textit{OctoThinker-8B}）に達します。WISTはさらにドメインを制御でき、医学では\textit{Qwen3-8B-Base}が\textbf{+14.79}、PhyBenchでは\textit{Qwen3-4B-Base}が\textbf{+5.28}改善します。アブレーションはまた、安定したオープンウェブ学習においてWISTの主要コンポーネントが重要であることをさらに裏付けます。私たちのコードは https://github.com/lfy-123/WIST で公開されています。

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

認識が不可欠、AIに読み取らせてはいけない情報

日経XTECH

WIST：ドメイン特化型推論改善のための、Webに基づく反復的自己プレイ・ツリー

要点

関連記事

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

三菱電機も出資、ユニコーン予備軍の燈 フィジカルAI「26年内に」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」