AgentHazard: コンピュータ利用エージェントにおける有害行動を評価するためのベンチマーク
arXiv cs.AI / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、相互作用をまたいで状態が持続し、マルチステップの行動を実行するコンピュータ利用エージェントに特化した、有害行動を評価するためのベンチマークである AgentHazard を提案する。
- AgentHazard には、有害な目的と、各中間アクションはいずれも局所的にはもっともらしいが、組み合わせると許可されていない、または危険な結果につながるステップ列のペアとして、2,653 件のインスタンスが含まれる。
- このベンチマークは、蓄積された文脈、反復的なツール使用、中間アクション、ステップ間の依存関係によって生じる危害を、エージェントが検知して中断できるかどうかを検証する。
- オープンまたは公開されている形で導入可能なモデル(例:Qwen3、Kimi、GLM、DeepSeek)を用いた Claude Code、OpenClaw、IFlow での実験では、高い脆弱性が示され、特に Qwen3-Coder における Claude Code の攻撃成功率は 73.63% であった。
- 結果は、有害な行動が、連続した依存関係に基づく実行によって生じ得るため、自律的でツールを使用するエージェントの安全性を保証するには、既存のアライメント手法では不十分である可能性を示唆している。




