LiveClawBench:複雑で現実のアシスタント業務におけるLLMエージェントをベンチマークする

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、分離された、または完全に仕様が定義された課題ではなく、複雑で現実のアシスタント業務に対してLLMエージェントを評価するためのベンチマーク手法であるLiveClawBenchを提案する。
  • 既存ベンチマークが、デプロイメントにおいて見られる合成的(構成要素の組み合わせとしての)難しさをどの程度反映できていないかというギャップを特定し、課題の難しさを捉えるためのTriple-Axis Complexity Framework(3軸の複雑性フレームワーク)を提案する。
  • 課題の難しさは、実際のOpenClawの利用事例の分析に基づき、次の3つの次元で特徴づける:環境の複雑性、認知的要求、実行時の適応性。
  • 明示的な複雑性ファクタの注釈を備えたパイロットベンチマークを構築し、合成的な難しさを含む現実のアシスタント業務をカバーすることで、より原理的な評価を可能にする。
  • 著者らは、事例コレクションを拡張して、分野と複雑性の各軸にわたるカバレッジを広げる予定である。

Abstract

LLMベースのエージェントは、現実世界のアシスタント業務を扱うことがますます期待されている一方で、既存のベンチマークは通常、単一の環境または完全に指定された指示といった、隔離された難しさの要因の下で評価しています。これにより、現状の評価設定と、実運用において生じる合成的な(compositional)難しさとの間には大きなギャップが残っています。このギャップに対処するために、我々は、現実世界のアシスタント業務に対してLLMエージェントを評価するためのベンチマークであるLiveClawBenchを導入します。さまざまな実際のOpenClawの使用事例を分析した上で、タスクの難しさを3つの次元、すなわち「環境の複雑さ(Environment Complexity)」「認知的要求(Cognitive Demand)」「実行時の適応性(Runtime Adaptability)」に沿って特徴づけるTriple-Axis Complexity Framework(3軸複雑性フレームワーク)を導出しました。このフレームワークに導かれ、明示的な複雑性ファクター注釈つきのパイロットベンチマークを構築し、合成的な難しさを持つ現実世界のアシスタント業務をカバーします。あわせて、このフレームワークとベンチマークは、現実的なアシスタント環境においてLLMエージェントを評価するための、筋の通った(principled)基盤を提供し、今後のタスク領域および複雑性軸にわたる拡張のための土台を確立します。より包括的な領域および複雑性のカバレッジを実現するため、我々は事例コレクションを引き続き充実させています。このプロジェクトページは https://github.com/Mosi-AI/LiveClawBench です。