CUBE: エージェントベンチマークを統一する標準

arXiv cs.AI / 2026/3/18

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 著者らはCUBE(Common Unified Benchmark Environments)を紹介します。これは、エージェントベンチマークを統一し、統合オーバーヘッドを削減するための普遍的なプロトコルです。
  • CUBEはMCPとGym上に構築されており、適合する任意のベンチマークを一度ラップするだけで、評価、強化学習(RL)トレーニング、データ生成のために複数のプラットフォーム間でカスタム統合なしに使用できるようにします。
  • 標準は、タスク、ベンチマーク、パッケージ、レジストリの関心事を異なるAPIレイヤーに分離し、ベンチマークの生産が拡大するにつれて断片化を防ぎます。
  • 著者らは、ベンチマークの生産が2026年までに加速する中、プラットフォーム固有の実装が断片化を深める前に、標準の開発へコミュニティの貢献を求めています。