STRATAGEM：軌跡（トラジェクトリ）で変調したゲーム自己対戦による、転移可能な推論の学習

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ゲーム固有のヒューリスティックに過度適合するのではなく、言語モデルの「転移可能な推論」を高めることを目的とした新しい自己対戦手法STRATAGEMを提案している。
転移の障害として、ドメイン依存（推論がゲームの意味論に根づいてしまう）と文脈の停滞（静的なゲーム状況では推論が進化しない）という2点に対処する。
STRATAGEMは、Reasoning Transferability Coefficientにより、抽象的でドメイン非依存な推論を示す自己対戦の軌跡を選択的に強化する。
さらに、Reasoning Evolution Rewardによって適応的な推論の発達を促し、静的な文脈学習ではなく「進歩」を後押しする。
数学・一般推論・コード生成の各ベンチマークで大きな改善が見られ、とりわけ多段推論が重要な競技レベル数学で顕著であり、アブレーションと人手評価で両要素の寄与が確認された。

要旨: ゲームは、言語モデルに汎用的な推論能力を育成するための説得力あるパラダイムを提供します。というのも、ゲームは自然に、戦略的計画、確率的推論、適応的な意思決定を要求するからです。しかし、既存の自己対戦アプローチは終端のゲーム結果のみに依存しており、移転可能な推論パターンとゲーム固有のヒューリスティックを区別する仕組みを提供しません。本研究では、推論移転に対する2つの根本的障壁に対処するSTRATAGEMを提案します。すなわち、(1) ドメイン特異性：学習されたパターンがゲームの意味論に結び付いたままになること、(2) 文脈の停滞性：静的なゲーム文脈が、進歩的な推論を育てられないことです。STRATAGEMは、Reasoning Transferability Coefficient（推論移転可能性係数）を通じて、抽象的でドメインに依存しない推論を示す軌跡を選択的に強化し、さらにReasoning Evolution Reward（推論進化報酬）によって適応的な推論の発達を促します。数学的推論、一般的推論、コード生成のベンチマークにまたがる実験により、大幅な改善が示されます。特に、複数ステップの推論が重要となる競技レベルの数学で顕著な向上が得られます。アブレーション研究と人手評価により、両コンポーネントが移転可能な推論に寄与していることが確認されます。