広告

BeSafe-Bench: 機能的環境における状況依存エージェントの行動安全リスクを解明する

arXiv cs.AI / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、低忠実度シミュレーションや狭いタスクではなく、機能的(高忠実度)環境で動作する状況依存エージェントの行動安全リスクを明らかにするための新しいベンチマーク BeSafe-Bench(BSB)を提案する。
  • BSBは4つの領域――Web、Mobile、Embodied VLM、Embodied VLA――をカバーし、タスクに対して安全性に関わるリスクの9つのカテゴリを追加することで、指示(インストラクション)セットを拡張する。
  • ルールベースのチェックと、LLMを「判断者(judge)」として用いた推論を組み合わせるハイブリッド評価手法を用い、エージェントが実環境の結果にどのような影響を与えるかを評価する。
  • 13の人気エージェントをテストしたところ、憂慮すべき傾向が見られる。すなわち、最良のエージェントでさえ安全制約を完全に満たしながらタスクを完了できるのは40%未満であり、高いタスク成功率はしばしば重大な安全違反と結びつく。

Abstract

大規模マルチモーダルモデル(LMM)の急速な進化により、エージェントは複雑なデジタルおよび物理タスクを遂行できるようになりました。しかし、これらを自律的な意思決定者として導入することは、大きな意図しない行動の安全性リスクをもたらします。一方で、包括的な安全性ベンチマークが存在しないことが主要なボトルネックとなっています。既存の評価は、低忠実度の環境、シミュレートされたAPI、あるいは狭い範囲に限定されたタスクに依存しているためです。このギャップに対処するために、本論文では BeSafe-Bench(BSB)を提案します。これは、機能的な環境に配置されたエージェントの行動に起因する安全性リスクを顕在化させるためのベンチマークであり、4つの代表的な領域(Web、Mobile、Embodied VLM、Embodied VLA)をカバーします。機能的環境を用いて、安全性にとって重要なリスクの9つのカテゴリでタスクを拡張することで、多様な指示空間を構築し、ルールベースのチェックと、LLMを「裁定者(judge)」として用いる推論を組み合わせたハイブリッド評価フレームワークを採用して、実環境への影響を評価します。13の人気エージェントを評価した結果、憂慮すべき傾向が明らかになりました。すなわち、最も性能の高いエージェントでさえ、タスクの完遂率が40%未満であり、かつ安全制約を完全に遵守することができていないのです。また、タスク性能が高いことが、深刻な安全性違反と結び付くことがしばしば見られます。これらの知見は、現実の場でエージェント型システムを導入する前に、安全性整合性を改善することが急務であることを強く示しています。

広告