ClawLess:AIエージェントのためのセキュリティモデル

arXiv cs.AI / 2026/4/10

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、エージェントが敵対的である可能性があるという最悪ケースを想定した、自律型LLMベースAIエージェントのためのセキュリティフレームワークであるClawLessを提示する。
  • 学習やプロンプトベースの制御では基本的なセキュリティ保証は得られないと主張し、その代わりに形式的に検証されたポリシーを提案する。
  • ClawLessは、システムエンティティ、信頼スコープ、権限をカバーするきめ細かなセキュリティモデルを定義し、エージェントの実行時挙動に適応できるポリシーを備える。
  • フレームワークは形式的ポリシーを実行可能なセキュリティ規則へと変換し、BPFベースのシステムコール介入(インターセプト)を用いたユーザ空間カーネルにより強制(enforcement)を実装する。

要旨: 大規模言語モデル(LLM)によって駆動される自律型AIエージェントは、推論、計画、複雑なタスクの実行を行えますが、情報を自律的に取得したりコードを実行したりできる能力は重大なセキュリティリスクをもたらします。既存のアプローチは、学習やプロンプトによってエージェントの振る舞いを規制しようとしますが、本質的なセキュリティ保証は提供しません。私たちは ClawLess を提案します。これは、エージェント自身が敵対的であり得る最悪ケースの脅威モデルの下で、AIエージェントに対して形式的に検証されたポリシーを強制するセキュリティフレームワークです。ClawLess は、システムエンティティ、信頼スコープ、および権限にまたがるきめ細かなセキュリティモデルを形式化し、エージェントの実行時の挙動に適応する動的ポリシーを表現できるようにします。これらのポリシーは具体的なセキュリティルールへと翻訳され、BPF ベースのシステムコール・インターセプトを拡張したユーザ空間カーネルによって強制されます。このアプローチは、形式的なセキュリティモデルと実運用に即した強制を橋渡しするものであり、エージェントの内部設計にかかわらずセキュリティを確実にします。