自己参照が閉じないとき:大規模言語モデルにおける行列レベルのダイナミクス

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • arXivの論文は、複数のモデルファミリと解析パスにわたって、106個のスカラー指標を用いながら、大規模言語モデルにおいて自己参照的なプロンプトが内部の行列レベルのダイナミクスをどのように変化させるかを分析している。
  • 自己参照は、根拠づけられている場合、またはメタ認知として枠付けされている場合には概ね安定である一方、パラドックス的な自己参照は重要な不安定性シグナルを引き起こしやすいことがわかる。
  • 主な不安定性の原因として、真理値計算が有限の深さでいかなる解決にも到達できない「非閉鎖真理再帰(NCTR)」が特定されている。
  • NCTRのプロンプトでは、サンプルした全ての層において、注目(attention)の有効ランクが異常に高くなり、層ごとのSVDパターンが乱れることが観測される。これは、単純な崩壊ではなくグローバルな注目の再編成を示唆している。
  • 著者らは、これらの知見を古典的な行列半群の問題と結び付け、NCTRが有限深さのトランスフォーマにおける特定の力学的レジームに関連するという予想(conjecture)を提案し、NCTRプロンプトではより高い矛盾した出力が得られることを報告している。

Abstract

私たちは、自己参照的な入力が、大規模言語モデルの内部の行列ダイナミクスをどのように変化させるかを調査します。3つのアーキテクチャ系統から4つのモデル――Qwen3-VL-8B、Llama-3.2-11B、Llama-3.3-70B、Gemma-2-9B――に対して、最大7回の解析パスにわたり106個のスカラー指標を測定し、14段階の階層で300以上のプロンプトを、3つの温度(T \in \{0.0, 0.3, 0.7\})で評価したところ、自己参照だけでは不安定化しないことが分かりました。主要な崩壊(collapse)関連指標において、根拠のある自己参照的な陳述やメタ認知的プロンプトは、パラドックス的な自己参照よりも著しく安定であり、さらにいくつかの指標では事実に基づく対照(factual controls)と同程度に安定な場合さえあります。不安定性は、非閉路の真理再帰(NCTR:non-closing truth recursion)を誘発するプロンプトに集中します――有限の深さで解決されない真理値の計算です。NCTRプロンプトは、注意(attention)有効ランクの異常に高い上昇を生みます――単純な集中(concentration)による崩壊ではなく、グローバルな分散を伴う注意の再編成を示唆する――そして主要指標は、70Bモデルにおける安定した自己参照のもとでの値と比較して、Cohenのd = 3.14(注意有効ランク)から3.52(分散尖度)に達します。FDR補正後(q < 0.05)、281/397のメトリクス-モデルの組み合わせが、NCTRと安定した自己参照を識別し、さらに198件で|d| > 0.8となっています。層ごとのSVDにより、サンプリングしたすべての層で破壊が確認されます(解析した3モデルすべてでd > +1.0)。これは、集約によるアーティファクトを否定します。分類器はAUC 0.81-0.90を達成します。30の最小ペアにより、42/387の有意な組み合わせが得られます。106指標のうち43が、4つのすべてのモデルで再現します。私たちはこれらの観測結果を、3つの古典的な行列セミグループの問題に関連づけ、推測として、NCTRが有限深さのトランスフォーマーを、これらの問題が集中する力学的レジームへと押し込むのだろうと提案します。NCTRプロンプトは、対照に比べて矛盾する出力が増加する(+34-56パーセンテージポイント)ことも示されており、自己参照的な失敗モードの理解に対して実用上の関連性を示唆しています。