広告

追跡(Tracking)と判断(Deciding)の対立:探索なしチェストランスフォーマーにおける二重能力ボトルネック

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「探索なし(searchless)」で手の列(ムーブシーケンス)のみで学習したチェス・トランスフォーマーは、手の履歴から状態を追跡する能力と、良い手を選ぶための意思決定(判断)の質という、互いに異なるが対立する2つの能力を学習しなければならないと主張している。
  • これを二重能力ボトルネック(追跡学習と判断学習のうち弱い方に性能が制限される)として形式化し、なぜ低評価の対局が追跡の多様性に寄与し、高評価の対局がより良い判断の手がかりを提供するのかを説明する。そして低評価データを取り除くと結果が悪化することを示す。
  • 著者らは、28Mから120Mパラメータへモデルをスケールすることで追跡性能を改善し、その後、追跡の多様性を保ちながらEloで重み付けした学習を用いて意思決定の質を高める。これら2つの介入は、単純な足し合わせ以上の相乗効果(superadditive)を示すと報告している。
  • 実験では、スケーリングによって追跡が改善し、重み付けによって判断が改善すること、また線形(linear)な重み付けが最も良いことが示される。さらに、検証損失が下がっていても、重み付けを過度に強くすると追跡が損なわれ得る。
  • 120Mパラメータのモデル(探索なし)はLichess Bulletで約2570に到達し、人間の手予測でTop-1精度55.2%を達成する。加えて、シーケンス入力により位置(ボード状態)のみを用いる手法にはない、履歴依存の振る舞いが可能になることを示している。

Abstract

A human-like chess engine should mimic the style, errors, and consistency of a strong human player rather than maximize playing strength. We show that training from move sequences alone forces a model to learn two capabilities: state tracking, which reconstructs the board from move history, and decision quality, which selects good moves from that reconstructed state. These impose contradictory data requirements: low-rated games provide the diversity needed for tracking, while high-rated games provide the quality signal for decision learning. Removing low-rated data degrades performance. We formalize this tension as a dual-capability bottleneck, P <= min(T,Q), where overall performance is limited by the weaker capability. Guided by this view, we scale the model from 28M to 120M parameters to improve tracking, then introduce Elo-weighted training to improve decisions while preserving diversity. A 2 x 2 factorial ablation shows that scaling improves tracking, weighting improves decisions, and their combination is superadditive. Linear weighting works best, while overly aggressive weighting harms tracking despite lower validation loss. We also introduce a coverage-decay formula, t* = log(N/kcrit)/log b, as a reliability horizon for intra-game degeneration risk. Our final 120M-parameter model, without search, reached Lichess bullet 2570 over 253 rated games. On human move prediction it achieves 55.2% Top-1 accuracy, exceeding Maia-2 rapid and Maia-2 blitz. Unlike position-based methods, sequence input naturally encodes full game history, enabling history-dependent decisions that single-position models cannot exhibit.

広告