CUBE: エージェントベンチマークを統一する標準
arXiv cs.AI / 2026/3/18
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 著者らはCUBE(Common Unified Benchmark Environments)を紹介します。これは、エージェントベンチマークを統一し、統合オーバーヘッドを削減するための普遍的なプロトコルです。
- CUBEはMCPとGym上に構築されており、適合する任意のベンチマークを一度ラップするだけで、評価、強化学習(RL)トレーニング、データ生成のために複数のプラットフォーム間でカスタム統合なしに使用できるようにします。
- 標準は、タスク、ベンチマーク、パッケージ、レジストリの関心事を異なるAPIレイヤーに分離し、ベンチマークの生産が拡大するにつれて断片化を防ぎます。
- 著者らは、ベンチマークの生産が2026年までに加速する中、プラットフォーム固有の実装が断片化を深める前に、標準の開発へコミュニティの貢献を求めています。