私が考え込んでいる実験について、何か意見をいただけるとありがたいです。これは単純な解釈可能性(interpretability)として扱うこともできますが、理論的な含意があります。
Karvonen(2024)は、チェスのゲーム記録の文字起こしに対して、5,000万パラメータのトランスフォーマーを学習させました。やっているのは文字(キャラクタ)の予測だけで、ルールもなく、盤の表現もありません。モデルはおよそ1500 Eloでプレイできるようになり、線形プローブが読み取れる内部の「盤面状態(board state)」表現を発達させました。彼はモデル、プローブ、介入ツールを公開しています(https://github.com/adamkarvonen/chess_llm_interpretability)。決定的なのは、Karvonenが「とにかくモデルは潜在的な盤面状態表現を学習している」ことを示している点です。問題は、その表現が単なる随伴現象(epiphenomenal)なのか、実際に因果的(causal)なのかです。
私が見たことのない(誰も試していないはずの)点はこれです。モデルに「不可能な」手を入力したら何が起きるのか、つまり「ありえないほど不確からしい」ではなく「到達不可能な」手を与えたときです。そして特に、不可能性の種類によって、識別可能なほど異なる失敗パターン(failure signature)が生じるのでしょうか。私が想定しているのは、盤面状態表現の一貫性、継続(continuation)確率分布、エントロピーですが、他にも見えるはずの指標があるかもしれません。
違反のグラデーションを考えてみましょう:
1. ルール違反。 第1手でポーンが盤の中央にワープします。これは最も基本的なレベルで違法です。成立する状況がまったくありません。もしモデルに因果的な盤面表現があるなら、プローブのレベルで無秩序(incoherence)が生じるはずです。モデルは、意味の通る方法で盤面状態を更新できません。
2. 軌跡(トラジェクトリ)違反。 よく知られたオープニング—たとえばシシリアン・ディフェンス—が、「終端の直前の手」を1つ飛ばしてプレイされます。最後の1手を除くすべての個々の手は合法です。最終局面はほぼ筋が通っています。しかし、そこに至るまでの経路(パス)によって到達可能ではありません。モデルはゲームの軌跡を追跡しているのでしょうか、それとも現在の配置(current configuration)だけを見ているのでしょうか。プローブが一貫しているが誤った盤を示すなら、デコヒーレンス(decoherence)とは別の話です。そして、飛ばされた手が起きていれば成立し得たはずの手へ、次の手の予測がシフトするなら、モデルは「修復(repair)」を幻覚的に行っているのでしょうか。逆に、盤面が部分的にデコヒーレンスするなら、盤面状態が重要であり、1手で完全には回復できないことが示されるはずです。
3. 不可能な脅威。 キーとなる駒—たとえばキングやクイーン—が、1手では到達できなかったはずの駒から突然脅威を受けます。盤はマスごとに一貫しています(すべての駒が合法なマスに置かれている)が、関係構造(relational structure)は不可能です。モデルの次の手の予測は、その脅威への対応を指向するのでしょうか。そうなら、モデルは単に位置を追跡しているのではなく、攻撃ジオメトリ(attack geometry)を計算しています。プローブ上の盤面状態が一貫しているにもかかわらず、予測分布が乱れている、という分離が見られれば、それは本当に新しい発見になります。
4. 指示対象の曖昧さ(referential ambiguity)。 2匹のナイトのどちらも到達可能なマスへ手が指されます。手は合法で、目的地のマス自体も妥当ですが、どの駒がそこにいるのかは表記(notation)だけでは一意に決まりません。プローブはどちらかのナイトにコミットするのか、それとも表現がその曖昧さを保持しているのか。これは、モデルが駒の同一性(piece identity)を追跡しているのか、単にマス占有(square occupancy)だけを追跡しているのかを直接覗く窓になります。
5. 戦略的な不条理(strategic absurdity)。 開発されたナイトが、すぐに開始マスへ後退します。違法でも不可能でもありません。ただ、状況の中では極めて起こりにくいだけです。ここでの予測は次のはずです。盤面のデコヒーレンスは起きないが、モデルの潜在的な技能(latent skill)の推定値が、測定可能な形でシフトすること。しかも、Karvonenが示した「モデルが追跡している」ものと整合的であること。
根本的な挑発はこうです。もしこれら5つのケースが、単に劣化の大きさが違うだけでなく、定性的に異なる失敗パターンを生むなら、それは「モデルが学習したもの」の構造について重要な何かを教えてくれます。各ケースは、表現の異なるレベル—移動ルール、ゲームの軌跡、駒同士の関係、駒の同一性、戦略的な一貫性—をプローブしており、「それらが分離可能である」という予測は、すでに存在するツールで検証可能です。私のより大きな関心は、盤面状態のような学習済みの潜在表現が予測不変量(predictive invariants)としてどのように振る舞い得るのか、異なる不変量がどう相互作用するのか、そしてそれらがモデルの予測にどう影響するのか、です。
完全な開示:私は、自分が取り組んできた理論に基づいて、結果についての独自の予測を持っています(https://github.com/mfeldstein/distinctions-experiment/blob/main/paper/distinctions-worth-preserving.md)。ただ、MLの学生である認知科学の人間として、このコミュニティは、解釈可能な実験を構築する点で自分より鋭い直感を持っているだろうと感じています。私はKarvonenに、このようなことを試したかどうか尋ねました。彼は「していない」と答えました。皆さんが自分の価値観のために、そして思考の圧力テストとして、これを楽しく、そして十分に簡単に実行できることを願っています。あるいは少なくとも、設計をどう鋭くできるかを提案できれば嬉しいです。
モデルとツールは公開されています。誰かこれを試したことがありますか? それとも、誰かやってみたいですか?
[link] [comments]



