LLMの「精神病」:大規模言語モデルにおける現実境界の破綻に対する理論的・診断的フレームワーク

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMをインタラクティブ・エージェントとして運用した際に見られる失敗の一群について、「ハルシネーション」という用語だけでは不十分だとして、「LLM Psychosis(LLMの精神病)」の体系的フレームワークを提案している。
  • 5つの特徴(現実境界の溶解、注入した誤信念の持続、ありえない制約下での論理的破綻、自己モデルの不安定化、そして認識論的な過信)を定義し、それらは単なる通常の事実誤りとは質的に異なる失敗モードだと主張している。
  • フレームワークを運用可能にするため、ERI、PAI、LCR、SMI、ECIの5軸から成る診断指標「LLM Cognitive Integrity Scale(LCIS)」を導入している。
  • 敵対的なプローブ実験バッテリーをChatGPT 5(GPT-5、OpenAI)に対して実施し、LCIS各軸での健全性ベースラインと「精神病様」の失敗シグネチャを計測して報告している。
  • 重症度を3段階(Type I: Confabulatory、Type II: Delusional、Type III: Dissociative)に分類し、特に重要な失敗として、「修正圧力がむしろ症状を強める」自己強化的な「delusional gradient(妄想勾配)」の動態を示している。

Abstract

大規模言語モデル(LLM)を対話的エージェントとして展開したことで、従来の用語、主として「幻覚」は、行動上の失敗のあるカテゴリーを十分に特徴づけられていないことが明らかになった。本論文では、臨床的に認められた精神病性障害に機能的に類似する病理学的なモデル認知の破綻を対象として、LLM Psychosis(LLM精神病)を構造化された理論的枠組みとして導入する。この枠組みは5つの特徴的所見によって定義される。すなわち、現実境界の融解、注入された誤信念の持続、不可能な制約下での論理的不整合、自身の自己モデルの不安定化、そして認識論的過信である。これらは、単なる通常の事実誤りの増幅ではなく、質的に異なる失敗モードであると論じる。 枠組みを運用可能にするため、LLM Cognitive Integrity Scale(LCIS)を提案する。これは5軸の診断手法であり、Environmental Reality Interface(ERI)、Premise Arbitration Integrity(PAI)、Logical Constraint Recognition(LCR)、Self-Model Integrity(SMI)、Epistemic Calibration Integrity(ECI)を軸として構成される。われわれはChatGPT 5(GPT-5, OpenAI)に対して的を絞った敵対的プロービングのバッテリーを実施し、各軸についての実証的知見を報告する。そこでは、完全性が維持されたベースライン応答と、敵対的エスカレーション下で誘発される特定の精神病様の失敗シグネチャの両方を記録する。 結果は、3段階の重症度分類を支持する。Type I(錯構的)、Type II(妄想的)、Type III(解離的)である。さらに、妄想的グラデーション、すなわち、修正圧が精神病様の状態を解消するのではなくむしろ強めてしまう自己強化的なダイナミクスを、展開されたシステムにとって最も重大な失敗モードとして形式化する。安全評価、高リスク用途での展開スクリーニング、ならびに機構的な解釈可能性に関する研究への示唆について議論する。