信頼できないエージェントスキルに対する構造化セキュリティ監査と堅牢性向上

arXiv cs.AI / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、エージェントスキルのセキュリティ監査を単一プロンプトのフィルタリングから、SKILL.mdを軸にした構造化キャパビリティ・ユニットとしてパッケージ化し、複数ファイルをまたぐレビューへ拡張することを提案している。
  • 既存のガードレールは、意味を保存する書き換え(セマンティクス保存リライト)の下で悪意ある意図を一貫して再現・検出できない場合があると論じている。
  • 著者らは、信頼できないAgent Skillsに対する事前ロード監査を頑健な三分類問題として定式化し、SkillGuard-Robustを提案する。
  • SkillGuard-Robustは、ロールに応じた証拠抽出、選択的な意味検証、整合性を保つ裁定により、検出精度と判断の安定性を高める。
  • SkillGuardBenchおよびエコシステム拡張(254〜404パッケージ)での複数評価により、SkillGuard-Robustは高い完全一致率や悪性リスク再現率を達成する一方、より厳しい外部ソースの転移は未解決の課題として残るとしている。

概要: エージェントスキルのパッケージ SKILL.md ファイル、スクリプト、参照ドキュメント、およびリポジトリの文脈を、再利用可能な能力ユニットとしてまとめることで、事前ロード時の監査を単一プロンプトによるフィルタリングから、ファイル横断のセキュリティレビューへと変えます。既存のガードレールは多くの場合リスクを検出しますが、意味を保存する書き換えのもとでは、悪意ある意図を一貫して復元できないことがよくあります。本論文では、信頼できないエージェントスキルに対する事前ロード時の監査を堅牢な三者分類問題として定式化し、SkillGuard-Robust を提案します。これは、役割を考慮した証拠抽出、選択的な意味検証、整合性を保存する裁定を組み合わせたものです。SkillGuard-Robust を SkillGuardBench および 2 つの公開エコシステム拡張で評価し、254 から 404 までの 5 つの大規模評価ビューにわたって検証します。404 パッケージの非公開ホールドアウト集計では、SkillGuard-Robust は総合の完全一致で 97.30%、悪意リスクのリコールで 98.33%、攻撃の完全な整合性で 98.89% を達成します。254 パッケージの外部エコシステムのビューでは、それぞれ 99.66%、100.00%、100.00% に到達します。これらの結果は、制約付きの結論を支持します。パッケージ監査を分解した手法は、凍結された状態および公開エコシステムにおける堅牢性を実質的に向上させる一方で、より厳しい外部ソースからの転移は未解決の課題として残ります。