私の現在のワークフロー(Python/C++でのコーディングと技術レポート)では、主にQwen3.6 27BとGemma4 31Bを使っています。過去にはDeepseekのような他のモデルも試しましたが、結果はそこそこ良かったものの、とにかく遅くて大変でした……。なので、私が見落としていて試すべきモデルは何かありますか?
編集:明確に言うと、それらのモデルをより速く動かす方法を聞いているのではありません。私が聞きたいのは、他にどのモデルを試すべきかということです。「全部試せ」と言われても助けになりません。というのも、まず利用可能なモデルは無数にあり、地球上の誰もそれらを現実的に全部試すことはできないからです。そして次に、もし全部試す気があるなら、ここで質問はしません。利用可能なVRAMより多いモデルを見つけた場合は、できる限り量子化またはモデル自体を縮小します。それでも無理なら、遅すぎるのでそのモデルは諦めます。
システム構成:MI50 32GB + V100 32GB。さらに、実運用で10tps未満は「痛いほど遅い」です。
[link] [comments]




