爪と危険：オープンなエージェント型システムを信頼できるか？

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、オープンなエージェント型システム（LLMの計画＋ツール＋永続メモリ＋委譲された実行）が、確率的な実行時の意思決定や不確実な環境によって、従来のソフトウェアとは本質的に異なるセキュリティ問題を引き起こすと論じる。
攻撃、ベンチマーク、防御、監査、および関連するエンジニアリング基盤にわたる50本の論文を統合し、オープンなエージェント型システムのセキュリティを分析するための6次元の分類法を提示する。
セキュア・バイ・コンストラクション（構築時から安全）な「参照ドクトリン」と、エージェント基盤（プラットフォーム）のセキュリティ態勢を評価するための評価スコアカードを導入する。
レビューでは、現状の研究は攻撃の性格付けやベンチマーク構築については比較的成熟している一方で、デプロイ制御、運用上のガバナンス、永続メモリの完全性、そして信頼できる能力（ケイパビリティ）の取り消しについては弱いと指摘する。
最終的に、本論文は、万一の侵害下でも管理可能・監査可能・そしてレジリエントであり続けるエージェント・エコシステムを構築するための、具体的なエンジニアリング課題を提示して結論づける。

Abstract

オープンなエージェント型システムは、LLMベースの計画と外部機能、永続的なメモリ、特権付きの実行を組み合わせます。これらは、コーディング支援者、ブラウザ・コパイロット、エンタープライズの自動化などに用いられます。OpenClawは、このより広いクラスの可視的な実例です。これまであまり注目されていませんが、そのセキュリティ上の課題は、予測可能な実行と明確に定義された制御フローに依存する従来のソフトウェアとは本質的に異なります。オープンなエージェント型システムでは、すべてが「確率的」です。つまり、計画は実行時に生成され、重要な意思決定は信頼できない自然言語の入力やツール出力によって左右され得ます。実行は不確実な環境の中で展開され、人間のユーザが委任した権限のもとで行動が取られます。したがって中心的な課題は、個々の攻撃に対する単なる頑健性ではなく、持続する不確実性のもとでのエージェント挙動のガバナンスです。本論文は、ソフトウェア工学の観点からこの領域を体系化します。私たちは6次元の分析用分類（タクソノミー）を導入し、攻撃、ベンチマーク、防御、監査、そして隣接するエンジニアリングの基盤にまたがる50本の論文を統合します。この統合から、セキュア・バイ・コンストラクションのエージェント基盤（プラットフォーム）に関する参照ドクトリンを導出するとともに、プラットフォームのセキュリティ態勢を評価するための評価スコアカードも作成します。レビューの結果、文献は攻撃の特性化とベンチマーク構築では比較的成熟している一方で、デプロイ（導入）制御、運用上のガバナンス、永続メモリの完全性、ならびに能力（キャパビリティ）の剥奪においては弱いことが分かります。これらのギャップは、妥当な統制が可能で、監査可能であり、仮に侵害された場合でも耐性を備えるエージェント・エコシステムを構築するための具体的なエンジニアリング課題を定義します。