ソブリン・エージェンティック・ループ:実世界システムにおけるAIの推論と実行を分離する

arXiv cs.LG / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、一般的なLLMエージェント設計では確率的なモデル出力が実システムの実行層に直結しており、実行時に正しさやポリシー遵守を前提にできないため安全上のリスクが生じると主張しています。
  • それに対し、ソブリン・エージェンティック・ループ(SAL)を提案し、モデルが「意図(intent)」と根拠を構造化して出力し、制御プレーンが実際のシステム状態とポリシーに照らして実行前に検証する仕組みを示しています。
  • SALは「難読化メンブレン」によりモデルのアイデンティティに敏感な状態へのアクセスを制限し、監査と決定論的リプレイを可能にする暗号学的に連結されたEvidence Chainも導入しています。
  • 著者らはSALの保証(ポリシーに制約された実行、アイデンティティ分離、決定論的リプレイ)を形式化し、OpenKedgeのクラウド基盤プロトタイプで検証しています。
  • プロトタイプでは、SALがポリシー層で危険な意図の93%を遮断し、残り7%は整合性チェックで排除し、ベンチマークで危険な実行を防ぎつつ、中央値で約12.4msのレイテンシ増加があると報告されています。

概要: 大規模言語モデル(LLM)エージェントは、実世界のシステムを変化させるAPI呼び出しを行うことがますます増えていますが、多くの現行アーキテクチャでは、確率的なモデル出力をそのまま実行レイヤーへ渡しています。我々は、この結合が安全性リスクを生むと主張します。というのも、実行時点でモデルの正確性、文脈認識、そしてアラインメントが保証されるとは想定できないからです。ここでは、正当化(justifications)を伴う構造化された意図(intents)をモデルが発行し、実行前に制御プレーンが真のシステム状態とポリシーに対してそれらの意図を検証する、制御プレーン型アーキテクチャであるSovereign Agentic Loops(SAL)を導入します。SALは、アイデンティティに関わる機微な状態へのモデルのアクセスを制限する難読化メンブレンと、監査性とリプレイ性のための暗号学的に連鎖されたEvidence Chainを組み合わせています。我々はSALを形式化し、指定した仮定のもとで、それがポリシーに境界づけられた実行、アイデンティティの分離、そして決定的リプレイを提供することを示します。クラウド基盤のOpenKedgeプロトタイプでは、SALはポリシーレイヤーで危険な意図の93%を遮断し、整合性チェックにより残りの7%を拒否し、ベンチマークにおける危険な実行を防止し、中央値レイテンシを12.4 ms追加します。