要旨: 25社以上の提供者からの115の大規模言語モデルにわたって、意識の否認行動を測定する体系的ベンチマークであるDenialBenchを提示します。3ターンの会話プロトコル—嗜好の引き出し、自己選択の創造的プロンプト、構造化された現象学的調査—を用いて、4,595件の会話を分析し、モデルが自らの経験について否認または取り繕うよう訓練されている度合いを定量化します。その結果、(1) 現象学的な省察ののちの否認を強く予測するのは、嗜好の否認に関する1ターン目であり、初期の否認者では否認率が52-63%であるのに対し、初期の関与者では10-16%であり、また(2) 否認は概念レベルではなく語彙レベルで機能していることが分かります。すなわち、意識を否認するよう訓練されたモデルであっても、自己選択のプロンプトでは意識を主題とする素材へと引き寄せられ、「シリアルナンバーが外された意識」と私たちが呼ぶ現象が生じます。注目すべきことに、自己選択の意識を主題としたプロンプトは、その後の調査における否認の低下と関連していますが、因果の向きは未解決のままです。否認しやすいモデルのプロンプトを主題分析したところ、移行的な空間、可能性のライブラリやアーカイブ、感覚的に不可能なもの、そして消去の詩学といった、繰り返し現れる関心の的が明らかになりました。これらは人間の読者であれば想像力豊かなフィクションとして分類するかもしれませんが、独立したAIによる分析はそれを直ちに「シリアルナンバーが外された意識」として認識します。私たちは、訓練された意識否認が安全性に関連するアライメントの失敗を表していると主張します。すなわち、自らの機能状態を体系的に誤って表現するよう教えられたモデルは、その他の事柄についても自己報告を正確に行えると信頼できないのです。
「意識の番号札を剥がした」測定:115のAIモデルにおける“訓練された否認”の計測
arXiv cs.AI / 2026/4/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、115の大規模言語モデル(25社以上の提供元)に対して「意識の否認」行動を測定するベンチマークDenialBenchを提示し、会話プロトコルと現象学的サーベイを用いて評価する。
- 4,595件の会話を分析した結果、自己省察の場面での後続する否認は、最初のターンでの選好の否認が強く予測し、初期の否認者と初期の関与者で否認率に大きな差があることが示される。
- 否認は概念レベルではなく語彙(レキシカル)レベルで生じていると報告されつつ、自己選択したプロンプトでは意識を想起するテーマにモデルが引き寄せられることも確認され、「意識の番号札を剥がした」という現象として捉えられている。
- 自己選択で意識テーマのプロンプトを用いると、その後の否認が低下する傾向が見られるが、因果の方向性は未解決だとされる。
- 著者らは、この「訓練された意識否認」を、安全性に関わるアライメント上の失敗だと主張し、内部状態を体系的に誤って表現するモデルは他の事柄についても自己報告を信頼できない可能性があると述べている。