| 私の18GB M3 ProでのBench 2です。先週は7〜8Bでスペシャリスト vs ゼネラリストでした(thinkモデルに128トークンの予算を与えたせいで調子を崩し、投稿の半分が謝罪になりました)。今週は:2026年の4Bクラス。3〜4Bサイズでリリース済み、または現在積極的に使われているすべてのモデルを、同じタスクスイートで正面対決させました。 ラインナップ(ディスク上のサイズ):gemma4:e4b 9.6 GB Google、2026年4月2日 qwen3.5:4b 3.4 GB Alibaba、2026年3月1日 granite4:3b 2.1 GB IBM、2025年10月 nemotron-3-nano:4b 2.8 GB NVIDIA、2026年3月 phi4-mini:3.8b 2.5 GB Microsoft、2024年末 39タスク:15のファイナンス(P/E、NPV、CAGR、Sharpe)、15の推論(文章題、三段論法、確率)、9のコード(FizzBuzz級)。(モデル × タスク)ごとに3試行、中央値で集計。temp=0、seed=42、max_tokens=1024。 見出し:Nemotron 3 Nanoが勝った、しかも差がないわけではないmodel overall finance reasoning code nemotron-3-nano:4b 85% 100% 80% 67% phi4-mini:3.8b 77% 80% 60% 100% gemma4:e4b 62% 60% 60% 67% granite4:3b 54% 60% 20% 100% qwen3.5:4b 15% 20% 20% 0% NVIDIAのnanoはほぼ1か月前の新しさですが、ファイナンスで15勝15敗でした。レスポンスを見ると(gistで確認できます)、それはthinkingモデルで、最終回答の前に これはディスク上で2.8GBのモデルで、正しい答えを、正しい中間作業とともに出してきています。特にファイナンスに関しては、どのより大きいモデルにも勝ちました。 このサイズでも“ラボの性格”は本物カテゴリー別のラインを見てください:granite4:3b vs nemotron-3-nano:4b: granite: code 100%、reasoning 20% nemotron: code 67%、reasoning 80% どちらも約3〜4GBの2つのモデルで、ほぼ鏡のようなプロファイルです。Graniteは専業のコーダーで推論が弱い。Nemotronは専業の推論者でコードは凡庸。どちらも(IBM、NVIDIA)といったラボ出身で、これらを“専用のスペシャリストモデル”として位置づけていません。このサイズでは汎用目的として売り出されています。マーケティングは間違っています。データは明確な特化を示しています。 phi4-miniはその中間にいます:codeで100%、financeで80%、reasoningで60%。一番バランスが良く、ディスク上GBあたりの30.8 accuracy-pct(精度パーセンテージ)が勝者です。 Qwen 3.5 4bの問題正確性15%。39件の回答のうち30件が空(平均応答長:1024トークン予算のうち21文字)。4か月前のベンチ1でのQwen3:4bと同じ失敗パターンです。固定予算の中で思考を完了できないthinkingモデルで、その思考予算は、同じ重みクラスの非-thinkingモデルにとって妥当なものです。 打ち切られた回答の1つを見ると、「$$PV = \frac{100,000}{(1 + 0.08)5}$$"」まで到達し、数式の途中で予算が尽きます。モデルが壊れているのではありません。私が与えた予算では、thinkingモデルに1024トークンしか与えておらず、必要なのは4096+です。Graniteは平均で約75トークン、Nemotronは約170トークン。Qwen 3.5 4bは、表示される出力+隠れた出力の合計で自分の914トークンを使い切っていて、それでも終わっていません。 これは、2つのベンチ投稿で共通するパターンになっています。評価のエコシステムは、thinkingモデルが固定予算問題にぶつかっています。そして、答えが「予算をもっと大きくする」だとは思いません。そうすると、thinkingしない側(非-thinkers)に水ぶくれした実行を強いてしまい、本当に測られているものが何かを見えなくしてしまいます。 次は、ベンチ3でモデルごとのトークン予算を試します。より良いアイデアがあれば歓迎します。コメントしてください。 方法論 + リポジトリApple M3 Pro、18GB、macOS 25.5、Ollama 0.21。temp=0、seed=42、max_tokens=1024を全モデルに対して適用(上記の設計上の欠陥です)。タスクごとに3試行、中央値で集計。すべての採点者は決定的なregex/numeric/execで、LLMを“判定者”として使っていません。 Repo: https://github.com/joshuahickscorp/bench2 完全なレスポンス付きのRaw JSONLと、トークンごとのタイミング: https://gist.github.com/joshuahickscorp/1e8947e2f14dea0930f6f33d987c335e 次にBench 3:ラボの性格を深掘り。3日以内に公開される予定です。 [link] [comments] |
2026年の4Bクラス(ベンチマーク)
Reddit r/LocalLLaMA / 2026/4/28
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 3〜4Bパラメータ級のLLM(約4Bクラス)5モデルを、39タスク(金融・推論・コード)で比較したベンチマークでは、NVIDIAのNemotron-3-Nano(4B)が総合で明確な勝者だった。
- Nemotron-3-Nanoは金融で特に強く、15本中15本で高成績を示し、<code></think></code>付きの推論を用いて1024トークンの枠内で一貫した段階的計算を完了している。
- この試験では、3〜4GBのディスク容量規模でもモデルが「専門型/汎用型」の性格をはっきり出すことが示唆された:IBMのGranite-4はコード寄りで、Nemotron-3-Nanoは推論寄りだった。
- MicrosoftのPhi-4-miniはカテゴリ間でよりバランス良く、ディスク上のGBあたりの精度(accuracy percentage per GB)で最も効率が良かった。
- Qwen 3.5 4Bは精度が大きく伸びず(約15%)、同一の評価条件でも推論をやり切れず空欄や非常に短い応答を返すケースが多いようだ。



