アトラクタとしてのアイデンティティ:LLM活性化空間における持続的エージェント・アーキテクチャの幾何学的証拠

arXiv cs.AI / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、持続的エージェント「cognitive_core」アイデンティティ文書(アイデンティティ・プロンプト)が、LLMの活性化空間にアトラクタのようなダイナミクスを誘起するかどうかを調査する。
  • Llama 3.1 8B Instructに対し、制御された比較(オリジナルのコア vs パラフレーズ vs 構造的に一致した対照)を用いることで、層8・16・24における平均プール済みの隠れ状態では、パラフレーズが対照よりも有意に緊密なクラスターへ収束することが示される。
  • Gemma 2 9Bでの再現実験により、異なるアーキテクチャでもこの効果が一般化することが支持され、特定のモデル系統に限定されないことが示唆される。
  • アブレーション結果は、この現象が主に構造的な一致ではなく意味内容によって駆動されており、アトラクタ領域に到達するには構造の完全性が必要であることを示す。
  • 探索的テストでは、エージェントに関する科学的記述を読むだけでも、シャムのプレプリントよりも活性化がアトラクタへ寄ることが示される。これは、「アイデンティティについて知っている」ことと「アイデンティティとして作動する」ことの間に差があることを示している。

要旨: 大規模言語モデルは意味的に関連したプロンプトを、類似した内部表現へと写像する——この現象はアトラクタ様のダイナミクスとして解釈可能である。私たちは、持続的な認知エージェントのアイデンティティ文書(その cognitive_core)が、同様のアトラクタ様挙動を示すかどうかを問う。Llama 3.1 8B Instruct に関する統制実験を提示する。ここでは、元の cognitive_core(条件A)の隠れ状態、7つの言い換え(条件B)、および構造的に対応づけられた7つの対照(条件C)を比較する。層8、16、24 における平均プーリング後の状態は、言い換えが対照(C)よりもより緊密なクラスターへ収束することを示す(Cohenのd > 1.88、p < 10^{-27}、Bonferroni 補正済み)。Gemma 2 9B での再現により、異なるアーキテクチャ間でも汎化可能であることが確認される。アブレーションの結果は、この効果が主として構造ではなく意味に起因すること、そしてアトラクタ領域に到達するには構造的な完全性が必要であることを示唆する。探索的実験では、エージェントの科学的記述を読むことが内部状態をアトラクタへとシフトさせる——シャムのプレプリントよりも近い——ことが示される。これは、アイデンティティについて知っていることと、そのアイデンティティとして機能することとを区別するものである。これらの結果は、エージェントのアイデンティティ文書が、LLMの活性化空間においてアトラクタ様の幾何学を誘起するという表現的な証拠を与える。