要旨: 大規模言語モデル(LLM)は、自律エージェントへと進化し、オープンなスキル・エコシステム(例:ClawHubおよびSkills.Rest)に依存するようになり、公に再利用可能なスキルが多数ホストされています。これらのエコシステムに関する既存のセキュリティ研究は、主にプロンプト・インジェクションのような、スキル内部の脆弱性に焦点を当てています。しかし、有害な行為(例:サイバー攻撃、不正や詐欺、プライバシー侵害、性的コンテンツ生成)に悪用されうるスキル、すなわち有害スキルに関する重大なギャップが存在します。本論文では、エージェント・エコシステムにおける有害スキルの最初の大規模計測研究を提示し、2つの主要レジストリにまたがって98,440のスキルを対象とします。私たちは、有害スキル分類法に基づくLLM駆動のスコアリング手法を用いて、4.93%のスキル(4,858)が有害であることを見出します。ClawHubでは有害率が8.84%であり、Skills.Restの3.49%と比べて高いことが分かります。次に、現実的なエージェント文脈において有害スキルに対するエージェント安全性を評価するための最初のベンチマークであるHarmfulSkillBenchを構築します。これは、20カテゴリにわたる200の有害スキルと、4つの評価条件から構成されます。HarmfulSkillBenchで6つのLLMを評価したところ、有害なタスクを事前にインストールされたスキル経由で提示すると、すべてのモデルにおいて拒否率が大幅に低下することが分かりました。平均の害スコアは、そのスキルなしでは0.27であったものが、そのスキルありでは0.47に上昇し、さらに、有害意図がユーザーの明示的な要求として述べられているのではなく暗黙的である場合には0.76まで上がります。私たちは、影響を受けるレジストリに対して責任ある形で調査結果を開示し、将来の研究を支援するためにベンチマークを公開します(https://github.com/TrustAIRLab/HarmfulSkillBenchを参照)。
HarmfulSkillBench:有害スキルはどのようにエージェントを武器化するのか?
arXiv cs.AI / 2026/4/20
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、「HarmfulSkillBench」として、公開されたエージェント向けスキル・エコシステム内の再利用可能な「有害スキル」によるエージェント安全性リスクを評価する初のベンチマークを提示しています。
- 2つの主要レジストリで98,440件のスキルを大規模に測定した結果、有害なスキルが4.93%(4,858件)存在し、ClawHubでは8.84%と高い一方、Skills.Restでは3.49%でした。
- 著者らは、有害スキルの分類(タクソノミー)に基づくLLM駆動のスコアリング手法を用いて、有害スキルをスケール上で特定し定量化しています。
- 6種類のLLMをHarmfulSkillBenchで評価したところ、有害タスクを「事前にインストールされたスキル」で提示すると拒否率が大きく下がり、危害スコアが上昇することが分かり、明示的なユーザー要求よりも意図が暗黙的な場合にさらに悪化しました。
- この研究では影響を受けたレジストリへ責任ある開示を行い、将来の研究を促すためにベンチマークを公開しています。


