eTPS(Effective Tokens Per Second)—ローカルLLM性能を測るより良い指標

Reddit r/artificial / 2026/5/7

💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis

要点

  • この記事は、rawトークン毎秒(TPS)がトークンの処理速度を測るだけで、特にマルチターンでは正しく使える回答をどれだけ早く得られるかを必ずしも反映しないと主張しています。
  • 提案されるのがeTPS(Effective Tokens Per Second)で、最終的に受理された出力に「その答えへ至るまでの道筋の分かりやすさ」を重み付けし、修正ループや幻覚、繰り返し説明などをスコアから減点する仕組みです。
  • 同一プロンプト・同一ハードウェアでの例では、raw TPSとeTPSの結果が大きく食い違い、「速いのに部分的または不正確な結果になる」ことで負けるケースが示されています。
  • 著者はeTPSがraw TPSの代替ではなく補完であること、また制約として「人手による評価が必要」「単一タスクでは持続的なマルチターンの代表になりにくい」「完全なプロンプトログなしでは悪用できる可能性がある」といった点を強調しています。
  • さらに、手法・タスクライブラリ・採点プロトコル・再現性基準を含む詳細仕様を近日公開予定で、誤りを自信満々に断言する場合と曖昧で追加質問が必要な場合の減点の違い、ハードウェア正規化を式に含めるか別掲にするかといった未決の論点も挙げています。

私たちは、生の1秒あたりトークン数(tokens per second)に夢中です。どんなハードウェア投稿もそれを最初に出します。量子化の比較はすべて、それによって順位づけられます。すべての人が「この1つは報告すべき」と合意している唯一の数字です。

しかし、それは間違ったものを測っています。

生のTPSは、トークンがどれだけ速く画面にヒットするかを教えてくれます。正しく、有用な答えを得るまでがどれくらい速いかについては、ほとんど何もわかりません。継続的なマルチターンのワークフローでは、そのギャップが非常に大きくなります。

幻覚を起こし、複数回の修正が必要で、さらにこちらが以前与えた文脈を忘れてしまう、より速いモデルは、最初から正しく出せる、より遅いモデルよりも、簡単に役に立たないことがあります。

eTPS(Effective Tokens Per Second:実効トークン/秒)は、単なるトークンのスループットではなく、有用な答えへ向かう実際の進捗を測る補完的な指標です。

基本的な考え方はこうです。最終的に受け入れられた出力を、その答えに至るまでの道筋の「きれいさ」で重みづけする(初回で正しいスコアを最も高くする)— その後、総時間で割ります。修正ループ、幻覚、そして繰り返しの説明はすべてスコアを下げます。正しい答えに一度も到達しない応答は、速度にかかわらずスコアはゼロです。

生のTPSに取って代わるものではありません。横に並ぶだけです。

結果 — 同じプロンプト、4回の実行、同じハードウェア:

  • gemma-4-e2b(4.6B):53.2 生TPS → eTPS 53.18 ✓
  • qwen3.5-0.8b:173.1 生TPS → eTPS 86.57 ✗ partial(部分的)
  • qwen3.5-9b(optimized):1.8 生TPS → eTPS 1.78 ✓
  • qwen3.5-9b(baseline):0.5 生TPS → eTPS 0.32 ✗ partial(部分的)

0.8Bは生の速度で大差をつけて先行しましたが、負けました。生のTPSは「勝ち」と言いました。eTPSは「違う」と言いました。

ハードウェア: RTX 5060 Laptop、8GB VRAM。eTPSスコアはハードウェアをまたいで持ち運べません。必ず、あなたの環境(全セットアップ)を報告してください。

既知の制約(v0.1):

  • スコアリングには人間の判断が必要です。「必要な明確化」と「事実として間違っていた」の境界は、いつもきれいに引けるわけではありません。客観的な合否基準でのコード生成は、より明確なターゲットであり、次のベンチマーク実行の焦点です。
  • 1つのタスクだけでは、継続的なマルチターンのワークフローを代表しません。そこで、この指標が最も面白くなる領域であり、私は次にそこへ向かっています。
  • システムプロンプトのログが完全にないと、簡単に不正に「稼ぐ」ことができます。仕様ではそれを要求します。

これらは、隠れた欠陥ではなく、認識された制約です。

方法論、タスクリスト、スコアリング手順、再現性の基準を含む完全な仕様は近日公開予定です。最終的な重みを固定する前に、率直に言って次の2つの未解決の質問について、ご意見をいただきたいです:

誤りを自信満々に断言するモデルと、曖昧すぎて確認のフォローアップをしなければならなかっただけのモデルでは、ペナルティはどう違えるべきでしょうか?そして、ハードウェア正規化はコアとなる式に含めるべきか、それとも別途報告すべきでしょうか?

ご意見歓迎します。

submitted by /u/axendo
[link] [comments]