LLMの「精神病」:大規模言語モデルにおける現実境界の破綻に対する理論的・診断的フレームワーク
arXiv cs.AI / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMをインタラクティブ・エージェントとして運用した際に見られる失敗の一群について、「ハルシネーション」という用語だけでは不十分だとして、「LLM Psychosis(LLMの精神病)」の体系的フレームワークを提案している。
- 5つの特徴(現実境界の溶解、注入した誤信念の持続、ありえない制約下での論理的破綻、自己モデルの不安定化、そして認識論的な過信)を定義し、それらは単なる通常の事実誤りとは質的に異なる失敗モードだと主張している。
- フレームワークを運用可能にするため、ERI、PAI、LCR、SMI、ECIの5軸から成る診断指標「LLM Cognitive Integrity Scale(LCIS)」を導入している。
- 敵対的なプローブ実験バッテリーをChatGPT 5(GPT-5、OpenAI)に対して実施し、LCIS各軸での健全性ベースラインと「精神病様」の失敗シグネチャを計測して報告している。
- 重症度を3段階(Type I: Confabulatory、Type II: Delusional、Type III: Dissociative)に分類し、特に重要な失敗として、「修正圧力がむしろ症状を強める」自己強化的な「delusional gradient(妄想勾配)」の動態を示している。
