AI Navigate

11個のローカルLLMで Kotlin HumanEval を実行しました。8GB のモデルがいくつかの 30B モデルを打ち負かしました

Reddit r/LocalLLaMA / 2026/3/15

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は JetBrains の Kotlin HumanEval を 11 台のローカル LLM で実行しました。16 GB の VRAM GPU に収まるものも含まれます。
  • 結果として、GPT-OSS 20B は pass@1 が 85%、pass@3 が 95%、Qwen3.5-35B-a3b は 77% / 86%、EssentialAI RNJ-1 は 75% / 81%(8.8 GB ファイルサイズ)、Seed-OSS-36B は 74% / 81%、GLM 4.7 Flash は 68% / 78% を達成しました。
  • GPT-OSS 20B はファイルサイズが比較的小さい(約12 GB)モデルでありながら pass@1 を支配しており、RNJ-1 は 8.8 GB で全体 3 位となり、サイズが 2〜3 倍のモデルを上回りました。
  • Qwen は 7 か月で 18 ポイント改善しました。

TLDR: JetBrains の Kotlin HumanEval を 11 台のローカルモデルで実行しました。16 GB の VRAM GPU に収まる小さなモデルも含みます。結果は以下のとおりです。

  • pass@1 / pass@3:
    • GPT-OSS 20B: 85% / 95%
    • Qwen3.5-35B-a3b: 77% / 86%
    • EssentialAI RNJ-1: 75% / 81% ← 8.8 GB ファイルサイズ
    • Seed-OSS-36B: 74% / 81%
    • GLM 4.7 Flash: 68% / 78%

いくつか興味深かった点:

  • GPT-OSS 20B は、ファイルサイズで見ると比較的小さなモデルの1つでありながら、依然として 85% の pass@1 を維持しています(12 GB)
  • 8.8 GB の EssentialAI RNJ-1 は全体で3位を取り、サイズが 2〜3 倍のモデルを上回りました
  • Qwen は7か月で18ポイント向上しました

セットアップに関する質問には喜んでお答えします。

投稿者 /u/codeforlyfe
[リンク] [コメント]