LiveClawBench：複雑で現実のアシスタント業務におけるLLMエージェントをベンチマークする

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、分離された、または完全に仕様が定義された課題ではなく、複雑で現実のアシスタント業務に対してLLMエージェントを評価するためのベンチマーク手法であるLiveClawBenchを提案する。
既存ベンチマークが、デプロイメントにおいて見られる合成的（構成要素の組み合わせとしての）難しさをどの程度反映できていないかというギャップを特定し、課題の難しさを捉えるためのTriple-Axis Complexity Framework（3軸の複雑性フレームワーク）を提案する。
課題の難しさは、実際のOpenClawの利用事例の分析に基づき、次の3つの次元で特徴づける：環境の複雑性、認知的要求、実行時の適応性。
明示的な複雑性ファクタの注釈を備えたパイロットベンチマークを構築し、合成的な難しさを含む現実のアシスタント業務をカバーすることで、より原理的な評価を可能にする。
著者らは、事例コレクションを拡張して、分野と複雑性の各軸にわたるカバレッジを広げる予定である。

Abstract

LLMベースのエージェントは、現実世界のアシスタント業務を扱うことがますます期待されている一方で、既存のベンチマークは通常、単一の環境または完全に指定された指示といった、隔離された難しさの要因の下で評価しています。これにより、現状の評価設定と、実運用において生じる合成的な（compositional）難しさとの間には大きなギャップが残っています。このギャップに対処するために、我々は、現実世界のアシスタント業務に対してLLMエージェントを評価するためのベンチマークであるLiveClawBenchを導入します。さまざまな実際のOpenClawの使用事例を分析した上で、タスクの難しさを3つの次元、すなわち「環境の複雑さ（Environment Complexity）」「認知的要求（Cognitive Demand）」「実行時の適応性（Runtime Adaptability）」に沿って特徴づけるTriple-Axis Complexity Framework（3軸複雑性フレームワーク）を導出しました。このフレームワークに導かれ、明示的な複雑性ファクター注釈つきのパイロットベンチマークを構築し、合成的な難しさを持つ現実世界のアシスタント業務をカバーします。あわせて、このフレームワークとベンチマークは、現実的なアシスタント環境においてLLMエージェントを評価するための、筋の通った（principled）基盤を提供し、今後のタスク領域および複雑性軸にわたる拡張のための土台を確立します。より包括的な領域および複雑性のカバレッジを実現するため、我々は事例コレクションを引き続き充実させています。このプロジェクトページは https://github.com/Mosi-AI/LiveClawBench です。

Meta、オープン・ウェイトからの転換／製薬でのAI賭け／規制の継ぎはぎ／人間のコホートをシミュレーション

The Batch

Anthropic Labsが「Claude Design」を提供開始

Anthropic News

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

日経XTECH

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

Claudeが指示を無視する理由（そしてCLAUDE.mdで直す方法）

Dev.to

LiveClawBench：複雑で現実のアシスタント業務におけるLLMエージェントをベンチマークする

要点

Abstract

関連記事

Meta、オープン・ウェイトからの転換／製薬でのAI賭け／規制の継ぎはぎ／人間のコホートをシミュレーション

Anthropic Labsが「Claude Design」を提供開始

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

Claudeが指示を無視する理由（そしてCLAUDE.mdで直す方法）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Meta、オープン・ウェイトからの転換／製薬でのAI賭け／規制の継ぎはぎ／人間のコホートをシミュレーション

Anthropic Labsが「Claude Design」を提供開始

防衛大手ラインメタル登壇、兵器にもソフト定義 ハノーバーメッセ注目講演

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

Claudeが指示を無視する理由（そしてCLAUDE.mdで直す方法）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演