Token Arena:エネルギーと認知(性能)を統合する、AI推論のための連続ベンチマーク
arXiv cs.AI / 2026/5/4
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- TokenArenaは、モデルや提供者レベルではなく、実際の意思決定に直結するエンドポイント(提供者、モデル、SKU/サービング構成)単位でAI推論を評価する連続ベンチマークを提案しています。
- 5つの軸(出力速度、先頭トークンまでの時間、ワークロードを考慮したブレンデッド価格、有効コンテキスト、エンドポイント品質)を計測し、さらにモデル化したエネルギーも加えて「joules/dollars per correct answer」や「endpoint fidelity」などの指標を合成します。
- 12モデルファミリーにまたがる78エンドポイントで、同じモデルでもエンドポイントにより大きく性能が変わり得ることが示されます(数学・コードで最大12.5ポイントの精度差、分布の“指紋”類似度で最大12ポイント、テールレイテンシが最大10倍、モデル化エネルギーが6.2倍など)。
- ワークロードを考慮したブレンデッド価格はランキングを大きく組み替え、チャット(3:1)、検索拡張(20:1)、推論(1:5)のプリセット間で上位の顔ぶれが入れ替わります。
- フレームワーク、スキーマ、プローブ/評価ハーネス、v1.0のリーダーボードスナップショットをCC BY 4.0で公開し、単一の固定ランキングではなく再現可能な方法論として位置づけています。



