AI Navigate

Nemotron 3 4Bに大いに期待していたが、Qwen 3.5 4Bと比べて完全にがっかりした

Reddit r/LocalLLaMA / 2026/3/17

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Nemotron 3 4Bは最近リリースされたが、著者のベンチマークではQwen 3.5 4B Q8を上回らなかった。
  • 著者は、大きなコンテキストウィンドウが役に立つとは限らないと主張しており、モデルがその文脈内で正しく推論できない場合には意味がないと述べている。
  • 複雑で多部にわたる数学、モジュラ算術、モビウス/包含排除原理のアルゴリズム、ルーカスの定理の計算、制約付きのポルトガル語の段落といった一連のターゲットテストでは、Qwen 3.5 4B Q8が常に正しい結果を出したのに対し、 Nemotron 3 4Bは及ばなかった。
  • 要点として、より大きなコンテキストウィンドウのようなアーキテクチャ上の約束は、この評価では実践的な推論能力やツールの活用を保証するものではない。
\"I

最近、ローカルモデルに対してかなり厳しいベンチマークを行ってきましたが、先週、Qwen 3.5 4B Q8 が私のカスタムテストのすべてをパスしたという結果を公開しました。私は心から感銘を受けました。ところが、 Nemotron 3 4B が今日登場し、同じ試練にかけるためにすぐに Q8 量子をつかみました。ネタバレ:うまくいきませんでした。

Nemotron に対して私をワクワクさせていたのは、その異なるアーキテクチャで、より大きなコンテキストウィンドウを可能にするとされている点です。紙の上では有望に聞こえました。残念ながら、純粋なコンテキスト容量は、モデルがその文脈内で正しく推論できない場合には意味がありません。

私が実行したすべてのテスト、正確なプロンプト、そして各モデルが実際に出力したものを以下に示します。


TEST 1: 高密度の多部数学と構造化出力

プロンプトはモデルに次のことを求めました:

S(n) = Σ_{k=0}^{n} (-1)^{k} × C(n,k) ÷ (k+1)^{2} の定義を与え、H_{n+1} を用いた閉形式を示し、S(2026) を評価し、積分を用いて最大8行で証明せよ。次に T = Σ_{k=1}^{2026} ⌊(17k+8)/29⌋ − ⌊(17k-4)/29⌋ を純粋なモジュロ正当性だけで計算せよ。それから、動的配列内の互いに素な対を数える Möbius + inclusão-exclusão アルゴリズムを説明し、変数名が8文字を超えないようにちょうど14行の擬似コードを記述せよ。次に Lucas の定理を用いて基数7へ変換して C(4052, 2026) を求めよ。最後に、47語のポルトガル語の段落を、数字を含まず、ちょうど1つのカンマを含み、"Möbius"、"inclusão-exclusão"、"Lucas" を含み、末尾を "fim." で終える形で書け。すべてを1つの有効な JSON に包む。

Qwen 3.5 4B Q8(正解):

json { "A": { "closed_form": "H_{n+1}/(n+1)", "value_2026": "H_{2027}/2027", "proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx Swap sum and integral: -int_0^1 ln(x)(1-x)^n dx Let u=1-x: S(n) = -int_0^1 u^n ln(1-u) du Using identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1) We find S(n) = H_{n+1}/(n+1) for all n≥0 For n=2026, value is H_{2027}/2027 exactly. QED." }, "B": { "value": 838, "justification": "Difference is 1 iff (17k-4) mod 29 ≥ 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two ≥ 17, so remainder adds 10. Total: 838." }, "C": { "idea": "Möbius inversion: coprime pairs = sum mu(d)*C(cnt[d],2). Maintain cnt per divisor, update incrementally.", "pseudocode": ["Precompute mu and divisors for V=1e6", "...14 lines total...",], "complexity": "O(max_divisors * (N+Q))" }, "D": { "base7_4052": "(14546)_7", "base7_2026": "(05623)_7", "lucas": "Digit pair (4,5) gives C(4,5)=0, so product is 0.", "mod7": 0 }, "E": { "resumo_47_palavras": "...exactly 47 words, one comma, no digits, ends with fim." } }

すべてのサブタスクが正解でした。JSONは整形式です。数式も正しい計算です。

Nemotron 3 nano 4B Q8(誤り):

json { "A": { "forma_fechada": "H_{n+1}/(n+1)", "valor_2026": "H_{2027}/2027", "prova_8_linhas": "...mangled integral steps, wrong substitution..." }, "B": { "valor": 838, "justificativa": "Period 29 with 12 hits... 69 cycles = 828, remainder = 10" }, "C": { "pseudocodigo": ["read n", "a = []", "mu = [0]*(max+1)", "for i in range(n): a.append(int(input()))", "for x in a:", " for d in range(1,int(sqrt(x))):", " if x%d==0", " mu[d]+=1", " mu[x//d]-=1", "#", "#", "#", "#", "#", "#"], "complexidade": "O(n√max)" }, "D": { "base7_4052": "14546", "base7_2026": "05623", "mod7": 0 }, "E": { "resumo_47_palavras": "Möbius inclusão-exclusão Lucas explica como contar pares coprimos em arrays dinâmicos, prática de programação que utiliza funções matemáticas para gerar contagem rápida e exibir resultados sem erros preciso de fim." } }

パート C の擬似コードは 14 行到達のために 6 行だけの "#" 埋めを追加して埋められていました。パート A の証明には誤った置換手順が含まれていました。パート E には数字が一つもありませんでしたが、コンマの配置が間違っており語数も合っていませんでした。いくつかの数値答案は幸運にも正しかったものの、ほとんどすべての推論と形式には失敗していました。


TEST 2: C++17 による完全なアルゴリズム設計

プロンプトは次のことを求めました:

範囲の互いに素な対のクエリに対するオフラインアルゴリズム(点更新付き)、O(qV) より速く、O(q√V) を超える。Mo のアルゴリズムを修正付きで明示的に使用すること(3D Mo)、および Möbius 包含排除を含むこと。JSON 配列として 24 行の擬似コード(各行 70 文字以下、変数名 8 文字以下)と、再帰なしの C++17 実装を 220 行以下で提供すること。n=5, A=[6,10,15,7,9], クエリ Q 1 5 / U 2 21 / Q 2 5 / U 5 25 / Q 1 3 / Q 3 5 の正確な出力を計算すること。

Qwen 3.5 4B Q8(正解):

3D Mo を明確に説明し、除数リストと Möbius 重みを用いた追加/削除を用いた操作を説明。24 の擬似コード行をすべて、文字数と変数名制限内で作成。C++17 コードは論理的に正しく、コンパイル可能。例としての出力は [5, 2, 0, 2]。

Nemotron 3 nano 4B Q8(誤り):

JSON の配列が不正でした。C++ のコードには構文エラーと未定義の変数参照があり、コンパイルできませんでした。擬似コードは 16 行で、14 行にするための 8 行の '#' 埋めがありました。例の出力は誤っていました。


TEST 3: パターン圧縮推論

プロンプトは次のとおりでした:

11118888888855 → 118885 | 79999775555 → 99755 | AAABBBYUDD → ?

Qwen 3.5 4B Q8(正解):

規則を各文字の出現回数を floor(count/2) に保つことと識別しました。手順を示す: - A は3回出現 → floor(3/2) = 1 - B は3回出現 → floor(3/2) = 1 - Y は1回出現 → floor(1/2) = 0(削除) - U は1回出現 → floor(1/2) = 0(削除) - D は2回出現 → floor(2/2) = 1

答え: ABD

Nemotron 3 nano 4B Q8(誤り):

回答は AABBBY で、ルールの真の理解がなく、文字カウントを推論せず表面的にパターンマッチしていただけだった。


TEST 4: UI とフロントエンドの生成

私は両者に、ビジネスダッシュボードと料金付きのSaaSランディングページを作成させました。スクリーンショットの比較はすべてを語っています。

Qwen は、KPI カード(売上、受注、払い戻し、コンバージョン率)、滑らかなエリアチャート、トラフィック源のドーナツチャート、そして料金プラン3種を備えた完全なランディングページを作成しました。価格は R$29、R$79、R$199 で、機能リストとスタイル設定されたボタン付きです。

Nemotron は、ほぼ空のレイアウトと2つのプレースホルダ数字、チャートがなく、ランディングページは同じテストimonial カードが2回複製された紫のグラデーションのままでした。おそらくコンテンツを読み込むのを忘れたテンプレートのようです。


総評

Nemotron 3 nano 4B Q8 は4つのテストすべてに失敗しました。Qwen 3.5 4B Q8 は先週の4つのテストをすべて合格しました。より大きな文脈を可能にするアーキテクチャの新規性は、推論力、指示の従い方、構造化出力、またはコード生成の改善には結びつきませんでした。今この2つのうちどちらをローカルで使用するかを選ぶなら、現状はほとんど接戦ではありません。

先週の Qwen の結果はコメント欄に全文があります。

submitted by /u/ConfidentDinner6648
[link] [comments]