2k TPSくらいで、非常に低いレイテンシのSOTA AIが必要です。最大限の知能のために、フルのCOTでリアルタイム返信したとき、初回の回答トークンが3秒未満で返ってくるようにしたいです。これは常に必要というわけではなく、医療上の問題を抱えた家族のためのリアルタイム会話で、せいぜい1時間くらいの間だけ必要です。
30〜60Kトークンのプロンプトがあり、その後は、約1時間分モデルが追い続けないといけない、完全な往復会話のコンテキストがゆっくりと埋まっていきます。
予算はかなり限られていますが、それでも最大のスピードと最大の知能が必要です。自分でホストするための物理的なハードウェアに投資する必要がないのはとてもありがたく、可能ならすべてを仮想で済ませたいです。特に、一度に大金を払うのは嫌なので、可能なら、そのためのハードウェアに何千ドルも使うのではなく、まずは一時的な料金を払う方がいいです。
以下は、これらの量子版またはフル版を動かしてみる可能性がある、私が思いついたオープンソース・モデルの選択肢です:
Qwen3.5 27B
Qwen3.5 397BA17B
Kimi K2.5
GLM-5
現在、CerebrasはGLM-4.7で1K+ TPSの素晴らしい成果を出しています。ただし、現時点ではより頭の悪い古いモデルで、いつでもAPI提供を終了する可能性があります。
OpenAIも、Codexのプロ層に「Spark」モデルがあり、仮にそれが良ければ非常に速いはずですが、コーディング以外のまともなベンチマークを見たことがありません。なので、たぶん良くないのだろうと思っていて、テストのために$200を使う気にはなれません。
また、Opus 4.6のような推論(reasoning)をしないモデルで、初回の回答トークンを素早く返すことだけで何とかすることもできますが、実際に考えるモデルとの間には明らかな大きなギャップがあるので、推論がないのは本当に惜しいです。高速なClaude APIはいい感じですが、COT付きで初回の回答トークンが>3秒を超えるほど速いわけではありません。Opusのレイテンシ自体が約3秒だからです。
皆さんはこの件についてどう思いますか?何かアドバイスはありますか?
[link] [comments]




