Best local model that fits into 24GB VRAM for classification, summarization, explanation?

Reddit r/LocalLLaMA / 3/23/2026

💬 OpinionSignals & Early TrendsTools & Practical Usage

Key Points

  • 投稿者は24GB VRAM(必要なら64GB RAM)環境で動作し、分類・要約・説明を行えるローカルLLM/モデルの候補を探しています。
  • 入力としてテキストや画像を扱い、指定したタクソノミ(分類体系)に基づいて分類結果を構造化データとして返すことを想定しています。
  • 要約や長所/短所の提示などはプロンプト側でルール(指示)を追加することで制御したいと述べています。
  • 目標の推論速度として最低20〜40 tokens/secondを求めています。

Looking for suggestions for a model that can fit in 24GB VRAM and 64GB RAM (if needed) that could run at least a 20-40 tokens/second.

I need to take input text or image and classify content based on a provided taxonomy list, summarize the input or explain pros/cons (probably needs another set of rules added to the prompt to follow) and return structured data. Thanks.

submitted by /u/AdaObvlada
[link] [comments]