どのモデルを試すべき?

Reddit r/LocalLLaMA / 2026/5/3

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • 著者は、Python/C++でのコーディングや技術レポート作成といった作業に合う、追加で試すべきLLMの候補を求めている。
  • 現在はQwen3.6 27BとGemma4 31Bを主に使っており、過去にDeepseekも試したが実用上の速度が遅すぎたという。
  • 速度改善の方法を聞きたいのではなく、スループットの制約により適した別のモデルを提案してほしい、という意図を明確にしている。
  • 使用している環境はMI50 32GBとV100 32GBで、実運用で10 tokens/secを下回ると「つらいほど遅い」と述べている。
  • VRAMが足りない場合は量子化や可能ならモデル自体の縮小で対応しており、遅延が許容できないモデルは見送る方針だ。

私の現在のワークフロー(Python/C++でのコーディングと技術レポート)では、主にQwen3.6 27BとGemma4 31Bを使っています。過去にはDeepseekのような他のモデルも試しましたが、結果はそこそこ良かったものの、とにかく遅くて大変でした……。なので、私が見落としていて試すべきモデルは何かありますか?

編集:明確に言うと、それらのモデルをより速く動かす方法を聞いているのではありません。私が聞きたいのは、他にどのモデルを試すべきかということです。「全部試せ」と言われても助けになりません。というのも、まず利用可能なモデルは無数にあり、地球上の誰もそれらを現実的に全部試すことはできないからです。そして次に、もし全部試す気があるなら、ここで質問はしません。利用可能なVRAMより多いモデルを見つけた場合は、できる限り量子化またはモデル自体を縮小します。それでも無理なら、遅すぎるのでそのモデルは諦めます。

システム構成:MI50 32GB + V100 32GB。さらに、実運用で10tps未満は「痛いほど遅い」です。

投稿日: /u/WhatererBlah555
[link] [comments]