要旨: 効果を実行するあらゆるシステムには、2つの境界があります。すなわち、「何ができるか(表現力)」と、「何が統治の対象か(統治)」です。配備済みのほぼすべてのAIシステムでは、これらの境界が独立に定義されており、その結果として3つの領域が生まれます。すなわち、「統治された能力(唯一の有用な領域)」、「統治されていない能力(リスク)」、そして「存在しない能力に対処する統治方針(舞台装置(theater))」です。この3領域のうち2つは失敗モードです。私たちは、効果の統治、すなわちAIシステムが世界に対して実行する行動(API呼び出し、データベース書き込み、ツールの呼び出し)に焦点を当てます。これは、モデル出力の統治(コンテンツ品質、バイアス、公平性)の統治とは異なります。モデル出力の統治は別のレベルで動作し、異なる仕組みを必要とします。私たちは、この構造的なギャップを分析するための形式的枠組みを提示します。Riceの定理(1953)は、効果の振る舞いを行動ベースで統治しようとする、チューリング完全なあらゆるアーキテクチャに対して、このギャップが一般の場合には判定不能であることを示します。すなわち、任意のプログラムについて「このプログラムの効果が統治方針に従っている」というような、非自明な意味論的性質を決定できるアルゴリズムは存在しません。私たちは、隣接する(coterminous)統治を定義します。これは、表現力の境界が統治の境界と等しいという、システムの性質です。隣接する統治には、事後に付け加えられる統治レイヤではなく、(計算と効果を切り離す)アーキテクチャ上の決定が必要であることを示します。この分離のもとでの構造的な統治は、別々の統治インフラを包括することを示します。つまり、統治チェックは、それに並行して動作する第2のシステムではなく、実行パイプラインの一部になります。私たちは、あらゆるAI統治システムに対する検証可能な基準として、隣接する統治を提案します。2つの境界が証明可能に同一であるか、さもなければリスクと舞台装置が構造的に避けられない、ということです。証明はCoqで機械化されています(454の定理、36のモジュール、0は未採用(admitted))。
2つの境界:なぜ行動(ビヘイビア)AIのガバナンスが構造的に失敗するのか
arXiv cs.AI / 2026/5/1
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、効果(世界への実行結果)を行えるAIシステムには「何ができるか(表現力)」と「何がガバナンスの対象か(ガバナンス範囲)」という2つの境界があり、それらを独立に扱うと「統制された能力」「統制されない能力(リスク)」「存在しない能力に対する方針(theater)」の3領域が生まれ、そのうち2つは構造的な失敗モードだと主張します。
- 論文は、API呼び出し・データベース書き込み・ツール起動などの「効果」のガバナンスに焦点を当て、出力(品質やバイアス、公平性など)のガバナンスとは別レイヤーであり異なる仕組みが必要だと切り分けています。
- Riceの定理を用いて、チューリング完全なアーキテクチャ一般ではこの構造的なギャップは決定不能であり、任意のプログラムの効果がガバナンス方針に適合するかを信頼して判定できるアルゴリズムはないと述べています。
- 著者らは「coterminous governance(境界が一致するガバナンス)」として、表現力の境界とガバナンス範囲を一致させる必要を提案し、それはガバナンスを後付けで追加するのではなく「計算と効果を分離する」というアーキテクチャ上の決定でしか実現できないと論じています。
- さらに、この分離の下ではガバナンスのチェックが実行パイプラインに組み込まれて(別系統のガバナンス基盤を包含して)動作し、ガバナンスシステムに対する検証可能な基準として「2つの境界が証明可能に同一であるか、リスクとtheaterが構造的に不可避であるか」を提案し、Coqでの機械化された証明を示します。




