Abstract
私たちは、自己参照的な入力が、大規模言語モデルの内部の行列ダイナミクスをどのように変化させるかを調査します。3つのアーキテクチャ系統から4つのモデル――Qwen3-VL-8B、Llama-3.2-11B、Llama-3.3-70B、Gemma-2-9B――に対して、最大7回の解析パスにわたり106個のスカラー指標を測定し、14段階の階層で300以上のプロンプトを、3つの温度(T \in \{0.0, 0.3, 0.7\})で評価したところ、自己参照だけでは不安定化しないことが分かりました。主要な崩壊(collapse)関連指標において、根拠のある自己参照的な陳述やメタ認知的プロンプトは、パラドックス的な自己参照よりも著しく安定であり、さらにいくつかの指標では事実に基づく対照(factual controls)と同程度に安定な場合さえあります。不安定性は、非閉路の真理再帰(NCTR:non-closing truth recursion)を誘発するプロンプトに集中します――有限の深さで解決されない真理値の計算です。NCTRプロンプトは、注意(attention)有効ランクの異常に高い上昇を生みます――単純な集中(concentration)による崩壊ではなく、グローバルな分散を伴う注意の再編成を示唆する――そして主要指標は、70Bモデルにおける安定した自己参照のもとでの値と比較して、Cohenのd = 3.14(注意有効ランク)から3.52(分散尖度)に達します。FDR補正後(q < 0.05)、281/397のメトリクス-モデルの組み合わせが、NCTRと安定した自己参照を識別し、さらに198件で|d| > 0.8となっています。層ごとのSVDにより、サンプリングしたすべての層で破壊が確認されます(解析した3モデルすべてでd > +1.0)。これは、集約によるアーティファクトを否定します。分類器はAUC 0.81-0.90を達成します。30の最小ペアにより、42/387の有意な組み合わせが得られます。106指標のうち43が、4つのすべてのモデルで再現します。私たちはこれらの観測結果を、3つの古典的な行列セミグループの問題に関連づけ、推測として、NCTRが有限深さのトランスフォーマーを、これらの問題が集中する力学的レジームへと押し込むのだろうと提案します。NCTRプロンプトは、対照に比べて矛盾する出力が増加する(+34-56パーセンテージポイント)ことも示されており、自己参照的な失敗モードの理解に対して実用上の関連性を示唆しています。