LiveClawBench:複雑で現実のアシスタント業務におけるLLMエージェントをベンチマークする
arXiv cs.AI / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、分離された、または完全に仕様が定義された課題ではなく、複雑で現実のアシスタント業務に対してLLMエージェントを評価するためのベンチマーク手法であるLiveClawBenchを提案する。
- 既存ベンチマークが、デプロイメントにおいて見られる合成的(構成要素の組み合わせとしての)難しさをどの程度反映できていないかというギャップを特定し、課題の難しさを捉えるためのTriple-Axis Complexity Framework(3軸の複雑性フレームワーク)を提案する。
- 課題の難しさは、実際のOpenClawの利用事例の分析に基づき、次の3つの次元で特徴づける:環境の複雑性、認知的要求、実行時の適応性。
- 明示的な複雑性ファクタの注釈を備えたパイロットベンチマークを構築し、合成的な難しさを含む現実のアシスタント業務をカバーすることで、より原理的な評価を可能にする。
- 著者らは、事例コレクションを拡張して、分野と複雑性の各軸にわたるカバレッジを広げる予定である。



