広告

2K TPSのSOTAモデル

Reddit r/artificial / 2026/3/25

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 投稿では、リアルタイム会話において、非常に低い time-to-first-token(3秒未満)で、状態・最先端(SOTA)のAI応答速度となる約2,000トークン/秒を達成するための実践的な提案を求めています。なお、会話には完全な chain-of-thought が含まれる可能性があります。
  • ユーザーは、いくつかのオープンソースのモデル候補(例:Qwen3.5 27B/397B、Kimi K2.5、GLM-5)を挙げ、コスト、量子化、そして自前でのホスティング(セルフホスト)用ハードウェアを最小化または回避したいという懸念に言及しています。
  • スループットと推論品質のトレードオフについて議論し、例としてCerebrasがGLM-4.7でより高いTPSを出している一方、旧世代または品質が低い推論のケースがあることを挙げています。また、OpenAIの「Spark」やその他の高速APIのようなプロプライエタリ(独自)オプションについては不確実性があります。
  • シナリオとして、長いプロンプト(30〜60kトークン)と、会話開始後にコンテキストが増え続ける1時間にわたるやり取りが含まれます。モデルは、その間ずっと拡大する文脈を処理し続ける必要があります。
  • 本質的な要望は、限られた予算のもとで、レイテンシ/スループット要件を最も満たせるモデルとデプロイ手法(バーチャル/ホステッドとセルフホスティング、量子化の可能性など)についての助言を求めることです。

2k TPSくらいで、非常に低いレイテンシのSOTA AIが必要です。最大限の知能のために、フルのCOTでリアルタイム返信したとき、初回の回答トークンが3秒未満で返ってくるようにしたいです。これは常に必要というわけではなく、医療上の問題を抱えた家族のためのリアルタイム会話で、せいぜい1時間くらいの間だけ必要です。

30〜60Kトークンのプロンプトがあり、その後は、約1時間分モデルが追い続けないといけない、完全な往復会話のコンテキストがゆっくりと埋まっていきます。

予算はかなり限られていますが、それでも最大のスピードと最大の知能が必要です。自分でホストするための物理的なハードウェアに投資する必要がないのはとてもありがたく、可能ならすべてを仮想で済ませたいです。特に、一度に大金を払うのは嫌なので、可能なら、そのためのハードウェアに何千ドルも使うのではなく、まずは一時的な料金を払う方がいいです。

以下は、これらの量子版またはフル版を動かしてみる可能性がある、私が思いついたオープンソース・モデルの選択肢です:

Qwen3.5 27B

Qwen3.5 397BA17B

Kimi K2.5

GLM-5

現在、CerebrasはGLM-4.7で1K+ TPSの素晴らしい成果を出しています。ただし、現時点ではより頭の悪い古いモデルで、いつでもAPI提供を終了する可能性があります。

OpenAIも、Codexのプロ層に「Spark」モデルがあり、仮にそれが良ければ非常に速いはずですが、コーディング以外のまともなベンチマークを見たことがありません。なので、たぶん良くないのだろうと思っていて、テストのために$200を使う気にはなれません。

また、Opus 4.6のような推論(reasoning)をしないモデルで、初回の回答トークンを素早く返すことだけで何とかすることもできますが、実際に考えるモデルとの間には明らかな大きなギャップがあるので、推論がないのは本当に惜しいです。高速なClaude APIはいい感じですが、COT付きで初回の回答トークンが>3秒を超えるほど速いわけではありません。Opusのレイテンシ自体が約3秒だからです。

皆さんはこの件についてどう思いますか?何かアドバイスはありますか?

submitted by /u/Mr-Barack-Obama
[link] [comments]

広告
2K TPSのSOTAモデル | AI Navigate