AI Navigate

11個のローカルLLMで Kotlin HumanEval を実行しました。8GB のモデルがいくつかの 30B モデルを打ち負かしました

Reddit r/LocalLLaMA / 2026/3/15

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

著者は JetBrains の Kotlin HumanEval を 11 台のローカル LLM で実行しました。16 GB の VRAM GPU に収まるものも含まれます。
結果として、GPT-OSS 20B は pass@1 が 85%、pass@3 が 95%、Qwen3.5-35B-a3b は 77% / 86%、EssentialAI RNJ-1 は 75% / 81%（8.8 GB ファイルサイズ）、Seed-OSS-36B は 74% / 81%、GLM 4.7 Flash は 68% / 78% を達成しました。
GPT-OSS 20B はファイルサイズが比較的小さい（約12 GB）モデルでありながら pass@1 を支配しており、RNJ-1 は 8.8 GB で全体 3 位となり、サイズが 2〜3 倍のモデルを上回りました。
Qwen は 7 か月で 18 ポイント改善しました。

TLDR: JetBrains の Kotlin HumanEval を 11 台のローカルモデルで実行しました。16 GB の VRAM GPU に収まる小さなモデルも含みます。結果は以下のとおりです。

pass@1 / pass@3:
- GPT-OSS 20B: 85% / 95%
- Qwen3.5-35B-a3b: 77% / 86%
- EssentialAI RNJ-1: 75% / 81% ← 8.8 GB ファイルサイズ
- Seed-OSS-36B: 74% / 81%
- GLM 4.7 Flash: 68% / 78%

いくつか興味深かった点:

GPT-OSS 20B は、ファイルサイズで見ると比較的小さなモデルの1つでありながら、依然として 85% の pass@1 を維持しています（12 GB）
8.8 GB の EssentialAI RNJ-1 は全体で3位を取り、サイズが 2〜3 倍のモデルを上回りました
Qwen は7か月で18ポイント向上しました

セットアップに関する質問には喜んでお答えします。

投稿者 /u/codeforlyfe
[リンク] [コメント]

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/15Dailyインサイトを見る →

関連記事

Translator

Azure OpenAI Service ドキュメント

200人のChatGPTユーザーに聞いた最大の不満。トップ5はすべてChatGPT Toolboxが解決する問題だった。

Reddit r/artificial

すべてのPRをセキュリティバグでレビューするAIを作った — その方法（2026）

Dev.to

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。