グランドマスター級のチェス指向トランスフォーマーの思考を追跡する

arXiv cs.LG / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Leela Chess Zero(LC0)のための疎分解の解釈可能性フレームワークを提示し、その内部でトランスフォーマーモジュールがチェスの推論をどのように計算しているのかを明らかにすることを目的とする。
  • MLP と注意(attention)コンポーネントの双方を、支配的な計算経路を捉えるための疎置換レイヤーを用いて分解する。
  • 詳細なケーススタディにより、得られた経路が、豊かな解釈可能な戦術的考慮に対応しており、経験的に検証可能であることを示す。
  • 本研究では3つの定量的指標を導入し、LC0が、ポリシーヘッドのアーキテクチャに内在する帰納的バイアスと整合した並列推論の振る舞いを示すと主張する。
  • 著者らは、解釈可能性のためにトランスフォーマー内部の計算を MLP と注意モジュールの両方にわたって分解する最初のアプローチだと主張し、コードを公開している。

Abstract

最新のトランスフォーマー型ニューラルネットワークはチェスやその他の推論タスクにおいてグランドマスター級の性能を達成していますが、その内部の計算プロセスは依然としてほとんど不透明です。Leela Chess Zero(LC0)に焦点を当て、LC0の主要な計算プロセスを捉えるスパース置換層を用いて、そのMLPおよび注意(attention)モジュールを分解することで、内部計算を解釈するためのスパース分解フレームワークを提案します。詳細なケーススタディを行い、これらの経路が豊かで解釈可能な戦術的考慮を明らかにし、その内容が実証的に検証できることを示します。さらに3つの定量的指標を導入し、LC0が、そのポリシーヘッドのアーキテクチャにおける帰納的バイアスと整合する並列推論行動を示すことを示します。われわれの知る限り、本研究は解釈可能性のためにMLPモジュールとattentionモジュールの両方において、トランスフォーマーの内部計算を分解した初めての試みです。LC0に対してスパース置換層と因果的介入(causal interventions)を組み合わせることで、超人的システムの基盤となるメカニズムについて重要な洞察を与えつつ、高度な戦術的推論を包括的に理解することができます。コードは https://github.com/JacklE0niden/Leela-SAEs で公開しています。

グランドマスター級のチェス指向トランスフォーマーの思考を追跡する | AI Navigate