Token Arena:エネルギーと認知(性能)を統合する、AI推論のための連続ベンチマーク

arXiv cs.AI / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • TokenArenaは、モデルや提供者レベルではなく、実際の意思決定に直結するエンドポイント(提供者、モデル、SKU/サービング構成)単位でAI推論を評価する連続ベンチマークを提案しています。
  • 5つの軸(出力速度、先頭トークンまでの時間、ワークロードを考慮したブレンデッド価格、有効コンテキスト、エンドポイント品質)を計測し、さらにモデル化したエネルギーも加えて「joules/dollars per correct answer」や「endpoint fidelity」などの指標を合成します。
  • 12モデルファミリーにまたがる78エンドポイントで、同じモデルでもエンドポイントにより大きく性能が変わり得ることが示されます(数学・コードで最大12.5ポイントの精度差、分布の“指紋”類似度で最大12ポイント、テールレイテンシが最大10倍、モデル化エネルギーが6.2倍など)。
  • ワークロードを考慮したブレンデッド価格はランキングを大きく組み替え、チャット(3:1)、検索拡張(20:1)、推論(1:5)のプリセット間で上位の顔ぶれが入れ替わります。
  • フレームワーク、スキーマ、プローブ/評価ハーネス、v1.0のリーダーボードスナップショットをCC BY 4.0で公開し、単一の固定ランキングではなく再現可能な方法論として位置づけています。

Abstract

公開された推論ベンチマークは、AIシステムをモデルレベルやプロバイダレベルで比較しますが、実際に導入(デプロイ)の意思決定が行われる単位はエンドポイントです。すなわち、特定の量子化、デコード戦略、リージョン、そしてサービングスタックが公開される(プロバイダ, モデル, 在庫管理単位: stock-keeping-unit)というタプルです。私たちは TokenArena を導入します。これは連続ベンチマークであり、5つの主要軸(出力速度、最初のトークンまでの時間、ワークロードを加味したブレンド価格、有効コンテキスト、ライブエンドポイントにおける品質)で、エンドポイント粒度の推論を測定し、さらにモデル化したエネルギー推定値と合わせて、3つの主要な合成指標へと統合します。具体的には「正しい回答あたりのジュール数(joules per correct answer)」「正しい回答あたりのドル(dollars per correct answer)」「エンドポイント整合性(endpoint fidelity:出力分布の一次当事者(first-party)参照への類似度)」です。この枠組みの新規性は、実証的かつ方法論的です。12のモデルファミリを提供する78のエンドポイントにわたって、異なるエンドポイント上で同じモデルを比較すると、数学とコードで平均精度が最大12.5ポイント、一次当事者へのフィンガープリント類似度が最大12ポイント、テールレイテンシが桁違い、またモデル化した正しい回答あたりのジュール数が6.2倍変化することを示します。さらに、ワークロードを考慮したブレンド価格によってリーダーボードが大きく並べ替えられることを示します。チャットプリセット(入力:出力が3:1)で上位10件に入っているエンドポイントのうち10件中7件が、検索拡張(retrieval-augmented)プリセット(20:1)ではトップ10から外れます。また、推論プリセット(1:5)は、チャットプリセットで価格面でペナルティを受けているフロンティアのクローズドモデルを前面に押し上げます。私たちは、この枠組み、スキーマ、プローブ(probe)、評価(eval)用ハーネス、そして v1.0 のリーダーボードスナップショットを、CC BY 4.0 のもとで公開します。TokenArena は単一のランキングではなく方法論です。完全な来歴(provenance)と制限事項を公開し、外部での再現(replication)を歓迎します。