要旨: 本技術報告書では、エージェント技能の有用性およびセキュリティを評価するためのツールである SkillTester を提示する。評価フレームワークは、別個のセキュリティ・プローブ・スイートと組み合わせて、ペアになったベースライン実行条件と技能付き実行条件を用いる。比較的有用性原理およびユーザー向けの簡潔さ原理に基づき、このフレームワークは、生の実行アーティファクトを、有用性スコア、セキュリティスコア、および3段階のセキュリティ状態ラベルへと正規化する。より広く言えば、それは、エージェント優先の世界におけるエージェント技能のための比較型品質保証ハーネスとして理解できる。公開サービスは https://skilltester.ai にデプロイされており、より大規模なプロジェクトは https://github.com/skilltester-ai/skilltester で維持されている。
SkillTester: エージェントスキルのベンチマークユーティリティとセキュリティ
arXiv cs.AI / 2026/4/1
💬 オピニオンTools & Practical UsageModels & Research
要点
- arXivの論文では、エージェントスキルの有用性とセキュリティの両方を評価するためのベンチマークツール「SkillTester」が紹介されています。
- このフレームワークでは、「スキルなし(baseline)」と「スキルあり(with-skill)」の実行構成を対にして用い、さらに別個のセキュリティ・プローブ用スイートを組み合わせることで、性能と安全性の差を測定します。
- 結果は、有用性スコア、セキュリティスコア、および3段階のセキュリティステータスのラベルに正規化され、比較をより一貫した形で解釈しやすくします。
- 本プロジェクトは、エージェント・ファーストのシステム向けの品質保証ハーネスとして提示されており、公開サービス(skilltester.ai)と、継続的なメンテナンスのための関連GitHubリポジトリが提供されています。




