BeSafe-Bench: 機能的環境における状況依存エージェントの行動安全リスクを解明する
arXiv cs.AI / 2026/3/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、低忠実度シミュレーションや狭いタスクではなく、機能的(高忠実度)環境で動作する状況依存エージェントの行動安全リスクを明らかにするための新しいベンチマーク BeSafe-Bench(BSB)を提案する。
- BSBは4つの領域――Web、Mobile、Embodied VLM、Embodied VLA――をカバーし、タスクに対して安全性に関わるリスクの9つのカテゴリを追加することで、指示(インストラクション)セットを拡張する。
- ルールベースのチェックと、LLMを「判断者(judge)」として用いた推論を組み合わせるハイブリッド評価手法を用い、エージェントが実環境の結果にどのような影響を与えるかを評価する。
- 13の人気エージェントをテストしたところ、憂慮すべき傾向が見られる。すなわち、最良のエージェントでさえ安全制約を完全に満たしながらタスクを完了できるのは40%未満であり、高いタスク成功率はしばしば重大な安全違反と結びつく。




