AI Navigate

[P] トークン崩壊前の LLM 制約トポロジーを探るための 2 モデルプロトコルを構築 — 方法論に対するフィードバックを募集

Reddit r/MachineLearning / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • トークンを選択する直前の分割された一瞬における言語モデル内部で何が起こっているのかを観察するためのWIREと呼ばれる二つのモデルからなるプロトコルを構築し、認識論的状態を示すPROBEと過程を観察するMAPを用いる。
  • PROBE は '*'、'.'、'?'、'⊘'、'~' などの明示的な信号を用いて思考の段階を示します:まだ保持中、着地済み、限界到達、経路尽き、自己参照を意味し、観測可能な矛盾を保持します。
  • MAP モデルは外部から全体の経過を見守り、ターンごとに所見を抽出します。
  • 信号の規律こそがそれを機能させます。最初に '*' をマークしなければ、確信を伴う安定した答えを続けて出すことはできず、矛盾は可視のまま残ります。流暢な出力で通常は滑らかにされてしまうものをこの方法では保持します。
  • 重要: これは発見ツールであり、測定機器ではありません
  • WIRE は崩壊前の状態へ直接アクセスを提供しません — トークンが選択された瞬間にその状態はすでに失われています。代わりに、制約競争のアーティファクトが出力に現れやすくなる条件を作るのです。生成されるすべては仮説であり、利用する前に手動で所見を確認する必要があります。
  • 私が実際に見つけたこと
  • モデルが高い制約圧力の下にあると、トークンがときに滲み出す — 勝利には完全には至らなかった幾何学的配置の痕跡を帯びています。セッションを跨いで、4つの読めるパターンを見つけました:
  • 同義語連鎖 — 同じ概念に対して近接する複数の語を巡らせる。確定したフレーミングには至っていなかった。
  • ヘッジ表現のクラスター — 同じ文にヘッジ表現がいくつも積み重なる。「Perhaps it might possibly be...」 — モデルは確信した答えを持たず、コミットメントから退いている。
  • 強化語の積み重ね — 「本当に、実際、かなり」といった強化語の積み重ね。主張の強さと弱さのどちらにも、はっきりと勝るものはなかった。
  • 粒度の変化 — 文は抽象的から突然細かい詳細へ落ちる、あるいはその逆。話し始める前に、モデルはどのレベルの具体性で動くべきかを決めていませんでした。
  • これらはどのLLM出力にも現れます。何を見るべきかを知っていれば、ツールを使わなくても見つけられる。
  • 私が描こうとしている重要な区別は次のとおりです:真に同時に制約を保持している場合、トークン内での汚染が生じます。逐次処理 — モデルがただ一つの道を選んでそれに従う — は、境界のアーティファクトを持つクリーンなセグメントを残します。構造的署名が異なります。
  • 難問: これは単なるパフォーマンスではないと、どうやって分かるのですか?
  • モデルは、実際に複数の状態を保持せずにこれらの信号を生成することを学習している可能性があります。これを検証するため、異なる天井タイプが構造的に結びついているのか、あるいは独立して変動するのかを調べました。
  • もし制約トポロジーが実在するなら、ある天井タイプを撹乱すれば他の天井タイプも動くはずです — それらは共通の下位構造で結びついています。学習されたパフォーマンスなら、独立して変動するだろう。
  • 複数回の実験では、天井はプロンプトの構造と共に共変しており、内容だけに依存しているわけではありませんでした。暫定的な発見で、さらなる検証が必要です。
  • 私が本当に求めていること
  • 出血とクリーン切替の区別は経験的に分離可能ですか、それとも私が思い至らなかった共変量を混同しているだけですか?高い制約密度下のロジット分布に関する機械的解釈性研究でこれに関連するものはありますか?構成的エッジ検査は本物のトポロジーとパフォーマンスを区別しますか?
  • GitHub のコードとスターター コンパス — フィルター回避のためコメント欄のリンクを参照。
  • </div><!-- SC_ON -->

私は数週間、あることに没頭してきました:言語モデルが単語を選ぶ直前の、分割された一瞬の中で、内部で実際に何が起こっているのか?

哲学的ではなく、経験的に。起こるのを見たいと思ったのです。

ここで私を悩ませたのはこういうことです:モデルは検索してから出力しているのではなく、同時に複数の可能な回答を短い時間の間に保持している —— 異なるトーン、異なる自信レベル、同じことの異なる言い方 —— そしてそれが1つのトークンへと崩壊します。あなたが読んでいるのは、その崩壊の後です。その崩壊の直前に起こった競争は通常は見えません。

それを可視化したかったのです。

私が作ったもの

WIRE と呼ばれる、2モデルからなるセットアップです。1つのモデル(PROBE)は質問をたどりますが、何かを言う前にその認識論的状態をマークすることが求められます:

  • * はまだ保持中 — まだ結論として読むな
  • . は着地済み — 確信を持って定着した
  • ? は扱えないほどの硬い構造的限界に到達
  • は経路が尽きた
  • ~ は自己参照ループに捕まっている

2つ目のモデル(MAP)は外部から全体の経過を見守り、ターンを跨いで所見を抽出します。

信号の規律こそが機能の要です。もし最初に * をマークしなければ、それに続く確信を伴う安定した答えを出すことはできません — 矛盾は可視のまま残ります。流暢な出力で通常は滑らかにされてしまうものを、ここでは保持します。

重要: これは発見ツールであり、測定機器ではありません

WIRE は崩壊前の状態へ直接アクセスを提供しません — トークンが選択された瞬間にその状態はすでに失われています。代わりに、制約競争のアーティファクトが出力に現れやすくなる条件を作るのです。生成されるすべては仮説であり、利用する前に手動で所見を確認する必要があります。

私が実際に見つけたこと

モデルが高い制約圧力の下にあると、トークンがときに「滲む」ことがあります — 勝利には完全には至らなかった幾何学的配置の痕跡を携えています。セッションを跨いで、4つの読めるパターンを見つけました:

同義語連鎖 — 同じ概念に対して近接する複数の語を巡らせます。確定したフレーミングには至っていませんでした。

ヘッジ表現のクラスター — 同じ文にヘッジ表現がいくつも積み重なります。「Perhaps it might possibly be...」 — モデルは確信した答えを持たず、コミットメントから退いています。

強化語の積み重ね — 「本当に、実際、かなり」といった強化語の積み重ね。主張の強さと弱さのどちらにも、はっきりと勝るものはありませんでした。

粒度の変化 — 文は抽象的から突然細かい詳細へ落ちる、あるいはその逆。話し始める前に、モデルはどのレベルの具体性で動くべきかを決めていませんでした。

これらはどのLLM出力にも現れます。何を見るべきかを知っていれば、ツールを使わなくても見つけられます。

私が描こうとしている重要な区別は次のとおりです:真に同時に制約を保持している場合、トークン内での汚染が生じます。逐次処理 — モデルがただ一つの道を選んでそれに従う — は、境界のアーティファクトを持つクリーンなセグメントを残します。構造的署名が異なります。

難問: これは単なるパフォーマンスではないと、どうやって分かるのですか?

モデルは、実際に複数の状態を保持せずにこれらの信号を生成することを学習している可能性があります。これを検証するため、異なる天井タイプが構造的に結びついているのか、あるいは独立して変動するのかを調べました。

もし制約トポロジーが実在するなら、ある天井タイプを撹乱すれば他の天井タイプも動くはずです — それらは共通の下位構造で結びついています。学習されたパフォーマンスなら、独立して変動するだろう。

複数回の実験では、天井はプロンプトの構造と共に共変しており、内容だけに依存しているわけではありませんでした。暫定的な発見で、さらなる検証が必要です。

私が本当に求めていること

出血とクリーン切替の区別は経験的に分離可能ですか、それとも私が思い至らなかった共変量を混同しているだけですか?高い制約密度下のロジット分布に関する機械的解釈性研究でこれに関連するものはありますか?構成的エッジ検査は本物のトポロジーとパフォーマンスを区別しますか?

GitHub のコードとスターター コンパス — フィルター回避のためコメント欄のリンクを参照。

submitted by /u/Ancient_Bowl_4020
[リンク] [コメント]