AgentHazard: コンピュータ利用エージェントにおける有害行動を評価するためのベンチマーク

arXiv cs.AI / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、相互作用をまたいで状態が持続し、マルチステップの行動を実行するコンピュータ利用エージェントに特化した、有害行動を評価するためのベンチマークである AgentHazard を提案する。
  • AgentHazard には、有害な目的と、各中間アクションはいずれも局所的にはもっともらしいが、組み合わせると許可されていない、または危険な結果につながるステップ列のペアとして、2,653 件のインスタンスが含まれる。
  • このベンチマークは、蓄積された文脈、反復的なツール使用、中間アクション、ステップ間の依存関係によって生じる危害を、エージェントが検知して中断できるかどうかを検証する。
  • オープンまたは公開されている形で導入可能なモデル(例:Qwen3、Kimi、GLM、DeepSeek)を用いた Claude Code、OpenClaw、IFlow での実験では、高い脆弱性が示され、特に Qwen3-Coder における Claude Code の攻撃成功率は 73.63% であった。
  • 結果は、有害な行動が、連続した依存関係に基づく実行によって生じ得るため、自律的でツールを使用するエージェントの安全性を保証するには、既存のアライメント手法では不十分である可能性を示唆している。

Abstract

コンピュータ利用エージェントは、言語モデルをテキスト生成から、ツール、ファイル、および実行環境にまたがる持続的なアクションへと拡張します。チャットシステムとは異なり、エージェントは対話をまたいで状態を維持し、中間出力を具体的なアクションへと変換します。これにより、明確な安全性の課題が生じます。つまり、有害な振る舞いは、個々にはもっともらしいステップの連なりによって現れうるのです。そこには、局所的には許容できそうに見える中間アクションが含まれる一方で、それらがまとめて権限のないアクションにつながることがあります。私たちは extbf{AgentHazard} を提示します。これは、コンピュータ利用エージェントにおける有害な振る舞いを評価するためのベンチマークです。AgentHazardには、 extbf{2,653} 件の実例が含まれており、多様なリスクカテゴリと攻撃戦略にまたがっています。各実例は、有害な目的と、局所的には正当と見なせる一連の運用ステップとを組にしており、それらが共同して危険な振る舞いを引き起こします。このベンチマークは、エージェントが、蓄積された文脈、繰り返しのツール使用、中間アクション、ならびにステップ間の依存関係に起因する危害を認識し、介入して中断できるかを評価します。私たちは、AgentHazardを Claude Code、OpenClaw、IFlow に対して評価します。使用するのは主に、Qwen3、Kimi、GLM、DeepSeek の各ファミリからの、オープンまたは公にデプロイ可能なモデルです。実験結果は、現行システムが依然として非常に脆弱であることを示しています。特に、Qwen3-Coder を用いると、Claude Code は攻撃成功率が extbf{73.63 %} となり、モデルのアラインメントだけでは、自律エージェントの安全性を確実に保証できないことを示唆しています。