入室から不変条件へ：委任型エージェントシステムにおける逸脱の測定

arXiv cs.AI / 2026/4/21

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、委任型自律エージェントシステムにおける「強制（enforcement）だけ」による統治では、逸脱を測定できる層よりも下で動く強制信号のため、行動のドリフトを検知できない可能性があると論じています。
入室時に設定される許容行動空間A0が、Local Observability（局所可観測性）仮定の下で、強制信号gからは決定できないことを示すNon-Identifiability Theorem（非識別定理）を提示しています。
不可能性の主因は、強制信号gが行う局所的な点ごとの行動チェックと、A0がエンコードするグローバルな軌跡（トラジェクトリ）レベルの性質との間に根本的なミスマッチがある点です。
これを回避するため、著者らはA0の生成モデルに直接アクセスできるInvariants Measurement Layer（IML）を定義し、入室時ドリフトの検出を有限の検出遅延（証明可能）付きで可能にすると示します。
複数のドリフトシナリオ、n8nのWebhookパイプライン、LangGraph StateGraphエージェントで検証したところ、強制は違反ゼロなのに対し、IMLは9〜258ステップ以内に各ドリフト型を検出できたと報告しています。