観測できないものを統治する:自律型AIエージェントのための適応的ランタイムガバナンス

arXiv cs.AI / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文は、自律型AIエージェントが行動のドリフト、順応する敵対者、決定パターンの変化などによって、コード変更なしでも安全性を損ね得ると主張している。
  • 「Informational Viability Principle(情報的ヴィアビリティ原理)」として、未観測リスクの上限制約を推定し、その推定値に安全マージンを加えた量をエージェントの許容(能力)が上回る場合にのみ行動を許可する、というランタイム統治の考え方を提示している。
  • ヴィアビリティ理論に基づく「Agent Viability Framework(エージェント・ヴィアビリティ・フレームワーク)」では、モニタリング、予測(anticipation)、単調な制限(monotonic restriction)の3つの性質を挙げ、文書化された失敗モードを扱う上でそれらが個別に必要かつ同時に十分であるとしている。
  • この枠組みをRiskGateとして具体化し、KLダイバージェンスやセグメント対restのz検定、逐次パターン照合などの統計的リスク推定器、フェイルセーフな単調な制御パイプライン、最後の手段としてのキルスイッチを備えた閉ループAutopilotを組み合わせている。
  • スカラーのViability Indexと第一階の予測(t*予測)により、統治を反応的な制約から予測的な規制へと転換することを目指している。

概要: 自律型AIエージェントは、完全に許可された状態であっても、行動がドリフトし、敵対者が適応し、コードを一切変更しないまま意思決定パターンが変化することで危険になり得ます。私たちは extbf{情報的実行可能性原理(Informational Viability Principle)} を提案します。これは、エージェントの統治は、観測されないリスクの上界を見積もることに帰着し 5B(x) = U(x) + SB(x) + RG(x) となり、そしてその容量 S(x) が安全マージン分だけ 5B(x) を超える場合にのみ行動を許可する、という原理です。Aubin の実行可能性理論(viability theory)に基づく extbf{エージェント実行可能性フレームワーク} は、文書化された失敗モードに対して、3つの性質 -- 監視(P1)、予期(P2)、単調な制限(P3) -- を、個別には必要であり、集合としては十分であるものとして確立します。 extbf{RiskGate} は、このフレームワークを、専用の統計推定器(KLダイバージェンス、区間対それ以外の z-検定、逐次的なパターン照合)で具体化し、フォールセーフの単調パイプラインを備え、さらに閉ループのAutopilotを、キルスイッチを最後の手段とする形で Aubin の調整写像(regulation map)の一例として形式化します。スカラーの実行可能性指数 VI(t) [-1,+1] と、一次の t^*$ 予測により、統治は反応的なものから予測的なものへ変換されます。貢献は、理論的フレームワーク、参照実装、そして公開されているエージェント失敗の分類法に対する解析的なカバレッジです。定量的な実証評価はフォローアップ作業として範囲を定めています。