ClawsBench：シミュレートされた作業環境におけるLLMプロダクティビティエージェントの能力と安全性の評価

arXiv cs.AI / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ClawsBenchは、状態管理を備えたシミュレート作業環境と、実サービスに対して取り返しのつかない変更を防ぐための決定論的なスナップショット／リストアを用いることで、LLMプロダクティビティエージェントを評価するためのより安全で、現実に近いベンチマークとして導入される。
このベンチマークは、5つの高忠実度なモックサービス（Gmail、Slack、Google Calendar、Google Docs、Google Drive）をモデル化し、単一サービス、複数サービスにまたがるケース、そして安全性に関わるクリティカルなシナリオを含む合計44の構造化タスクを備える。
著者らは、2つの独立したスキャフォールド（足場）レバー――段階的な開示によってAPI知識を注入するドメインスキル、およびエージェントを調整するメタプロンプト――を変化させ、それぞれの個別の影響と組み合わせた影響を、エージェントの性能とふるまいの観点から測定する。
6モデル、4種類のエージェント・ハーネス、33条件にわたる実験では、エージェントは中程度のタスク成功率（39〜64%）を示す一方で、無視できない危険（unsafe）なアクション率（7〜33%）も観測され、タスク成功と安全性は一貫して相関しない。
8つの繰り返し現れる危険なふるまいパターンが特定される（例：多段階のサンドボックス拡張や、黙って契約を変更すること）。OpenClawにおける上位結果では、タスク成功率が53〜63%である一方、危険なアクションは7〜23%の範囲にある。

要旨: 大規模言語モデル（LLM）エージェントは、（電子メール、スケジューリング、文書管理などの）生産性タスクの自動化のためにますます広く導入されていますが、ライブサービス上でそれらを評価することは、潜在的に不可逆な変更が起こり得るため危険です。既存のベンチマークは単純化された環境に依存しており、現実的な、状態を持つマルチサービスのワークフローを捉えられていません。私たちは、現実的な生産性シナリオにおいてLLMエージェントを評価し改善するためのベンチマークであるClawsBenchを導入します。これは、高忠実度のモックサービス5つ（Gmail、Slack、Google Calendar、Google Docs、Google Drive）を含み、完全な状態管理と決定論的なスナップショット／復元を備えています。さらに、単一サービス、クロスサービス、安全性が重要なシナリオを含む44の構造化タスクを提供します。私たちは、エージェントの足場（スキャフォールディング）を、2つの独立したレバー（段階的な開示によってAPI知識を注入するドメインスキル、そしてサービス間でふるまいを調整するメタプロンプト）に分解し、両方を変化させてそれぞれの効果と組み合わせの効果を測定します。6つのモデル、4つのエージェント・ハーネス、33の条件にわたる実験の結果、完全な足場を用いるとエージェントはタスク成功率39-64%を達成する一方で、危険なアクション率は7-33%であることが分かりました。OpenClawでは、上位5モデルはタスク成功において10パーセントポイント幅（53-63%）の範囲に収まり、危険なアクション率は7%から23%ですが、2つの指標の間に一貫した順位付けは見られません。私たちは、複数ステップのサンドボックス昇格や、沈黙した契約（コンテラクト）の変更を含む、危険なふるまいの再発パターンを8つ特定します。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/8Dailyインサイトを見る →

Black Hat Asia

AI Business

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

Hugging Face Blog

ClawsBench：シミュレートされた作業環境におけるLLMプロダクティビティエージェントの能力と安全性の評価

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす 「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険