静的サンドボックスを超えて:自律型AIエージェントのための学習型ケイパビリティ・ガバナンス

arXiv cs.AI / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自律型AIエージェントのランタイム(例:OpenClaw)における「能力の過剰提供(capability overprovisioning)」問題を指摘する。エージェントがタスクに関係なく、ツール・サブエージェント・資格情報(クレデンシャル)といった完全な能力を公開してしまうため、タスク種別をまたいで大きなセキュリティリスクのギャップが生じる。
  • NemoClawのコンテナ・サンドボックスやCisco DefenseClawのスキルスキャンのような既存の防御策は、隔離や検知に焦点を当てているが、タスクごとに適応的に最小権限(least-privilege)かつ最小能力(minimum-capability)セットを学習して適用することはできない、と主張する。
  • 提案するAethelgardフレームワークは、最小権限を強制するための4層の適応的ガバナンスを導入する。これには、動的なツールスコーピング(Capability Governor)や、実行前にツール呼び出しを捕捉すること(Safety Router)が含まれる。
  • 強化学習コンポーネント(RL Learning Policy)により、蓄積された監査ログからPPOポリシーを学習し、タスク種別ごとに適切な最小スキル/能力を判断できるようにする。

要旨: OpenClaw などのオープンソース実行基盤の上に構築された自律型AIエージェントは、タスクにかかわらず既定で、利用可能なあらゆるツールをすべてのセッションに対して公開します。要約タスクは、コード展開タスクと同じシェル実行、サブエージェントの生成、認証情報へのアクセス能力を受け取ります。さらに、私たちが能力過剰配分問題と呼ぶ 15 倍の過剰配分比率が存在します。NemoClaw のコンテナサンドボックスや Cisco DefenseClaw のスキルスキャナといった既存の防御は、封じ込めや脅威検知には対処しますが、タスク種別ごとに必要な最小実行可能能力セットを学習しません。
本稿では、学習したポリシーによってAIエージェントに対して最小権限を強制する、4層の適応的ガバナンスフレームワークである Aethelgard を提案します。第1層の Capability Governor(能力ガバナ)は、各セッションにおいてエージェントが認識するツールを動的にスコープ付けします。第3層の Safety Router(安全ルータ)は、ハイブリッドなルールベースおよび微調整済み分類器を用いて、実行前にツール呼び出しをインターセプトします。第2層の RL Learning Policy(強化学習による学習ポリシー)は、蓄積された監査ログに基づいて PPO ポリシーを学習し、タスク種別ごとに必要な最小実行可能スキル集合を獲得します。