自己自身を修正するとき、システムは何を修正するのか？

arXiv cs.AI / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、認知システムが自己修正するときに何を変えるのか、すなわち低レベルのルールを更新するのか、制御ルールを更新するのか、それとも改訂を支える評価規範を変えるのかを問い、そのようなターゲットを区別するための、認知科学および現代的AIの共通の形式的枠組みが欠けていると論じる。
最小限の形式的構造として、自己修正システムのための枠組み（ルール階層、一つの固定されたコア、効果的・表象された・因果的にアクセス可能なルールの分離）を提案し、そこから4つの自己修正レジーム（行為のみの修正、低レベルの修正、構造的修正、テレオロジー的な改訂）を導出する。
この枠組みを人間に適用し、著者らは「不透明性の交差」を主張する。すなわち、因果的な能力と自己表象はより高い階層レベルに集中する一方で、下位の操作レベルは比較的に不透明なままである。
屈折（リフレクシブ）AIシステムについては、論文は逆のパターンを論じる。すなわち操作レベルの方がより豊かな表象と因果的アクセス可能性を備えているのに対し、最上位の評価レベルはそのようなアクセスを欠いている。
この枠組みは人工的意識の理論と結び付けられ、4つの検証可能な予測を導き、さらに4つの未解決問題（たとえば「変換性」と「自律性」の独立性、変換下での同一性など）を列挙する。

要旨: 認知システムが自身の機能を変更するとき、具体的に何を変更するのでしょうか。低レベルのルールでしょうか、制御ルールでしょうか、それとも自分自身の修正を評価する規範でしょうか。認知科学は、実行制御、メタ認知、階層的学習を精密に記述しますが、これらの変容の対象を区別するための形式的枠組みが欠けています。現代の人工知能も同様に、生物の認知との比較を可能にする共通の基準を欠いたまま自己修正を示しています。
我々は、「何が自己修正システムとして数えられるのか」という問いは、最小限の構造を伴うことを示します。それは、ルールの階層、固定された中核、そして、有効なルール、表象されたルール、因果的にアクセス可能なルールの区別です。4つのレジームが特定されます: (1) 修正のない行為、(2) 低レベルの修正、(3) 構造の修正、(4) телеолог的（目的論的）改訂。各レジームは、認知現象と、それに対応する人工システムに結び付けられています。
この枠組みを人間に適用すると、中心的な結果が得られます。それは、オパシティ（不透明性）の交差です。人間は自己表象と因果的な効力が上位の階層レベルに集中している一方で、操作（運用）レベルは概ね不透明なままです。反射的な人工システムでは逆のプロファイルが観察されます。すなわち、操作レベルで豊かな表象と因果的アクセスがあるが、最高の評価レベルでは何もありません。この交差した非対称性は、人間とAIの比較のための構造的なシグネチャを与えます。さらに本枠組みは、人工意識への洞察も提供し、高次理論とAttention Schema Theory（注意スキーマ理論）が特殊な場合として位置づけられます。我々は、4つの検証可能な予測を導出し、4つの未解決問題を特定します。それは、変換可能性と自律性の独立性、自己修正の成立可能性、目的論的ロック、そして変換に対する同一性です。