TLDR: JetBrains の Kotlin HumanEval を 11 台のローカルモデルで実行しました。16 GB の VRAM GPU に収まる小さなモデルも含みます。結果は以下のとおりです。
- pass@1 / pass@3:
- GPT-OSS 20B: 85% / 95%
- Qwen3.5-35B-a3b: 77% / 86%
- EssentialAI RNJ-1: 75% / 81% ← 8.8 GB ファイルサイズ
- Seed-OSS-36B: 74% / 81%
- GLM 4.7 Flash: 68% / 78%
いくつか興味深かった点:
- GPT-OSS 20B は、ファイルサイズで見ると比較的小さなモデルの1つでありながら、依然として 85% の pass@1 を維持しています(12 GB)
- 8.8 GB の EssentialAI RNJ-1 は全体で3位を取り、サイズが 2〜3 倍のモデルを上回りました
- Qwen は7か月で18ポイント向上しました
セットアップに関する質問には喜んでお答えします。
[リンク] [コメント]