ローカル16GB M4モデルサーバ(Qwen3.5 LFM)における汎用推論のアップデート

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 16GBのMac Mini M4上で、331のGGUF言語モデルを対象に数週間にわたってベンチマークした結果、極端にTTFTが長い(>10s)かつスループットが非常に低い(<0.1 tok/s)ため、31モデルは実質的に使用不能であることが分かった。多くの27B+の密結合(dense)モデルが大きく失敗している。
  • 著者は、モデルの重みとKVキャッシュの合計が約14GBを超えるあたりで急激な性能の崖が発生することを見出した。これによりメモリスラッシングが起こり、速度・レイテンシが崩壊する。
  • Mixture-of-Experts(MoE)モデルが、このハードウェアでは優勢である。中央値のトークン毎秒が(denseが4.4に対し)20.0と大幅に高いだけでなく、時間としての最初のトークンまでの応答(time-to-first-token)も改善する。
  • テストした331モデルのうち、速度と品質の両方でパレート最適(Pareto-optimal)なのは11モデルのみである。いくつかの上位パフォーマーは、特定の量子化(quantization)条件下で、Ling-mini-2.0やLing-Coder-liteといったMoEバリアントに属している。
  • この記事では、16GBデバイスへのローカル配備において実行可能なGGUFモデルをユーザが選ぶための、Hugging Faceのモデルリスト(SUMMARY.md)へのリンクが提供されている。

Mac Mini M4(16 GB)で331個のGGUFモデルをベンチマークしました。その手間を省けるように、結果をまとめます。このベンチマークの続き: https://www.reddit.com/r/LocalLLaMA/comments/1rhuvyc/benchmarking_88_smol_gguf_models_quickly_on_a/ -

16 GBマシン向けにローカルモデルを選ぶのは、これまで主に「雰囲気」でした。そこで、パイプライン全体を自動化して、何週間も回しっぱなしにしました。

331モデル中、16 GBでは完全に使えないのが31

TTFT が10秒超、または< 0.1 tokens/sec。技術的にはロードされますが、メモリスラッシング(メモリの奪い合い)を起こしています。これには、私がテストしたすべての27B+の高密度(dense)モデルが含まれます。最悪の例:Qwen3.5-27B-heretic-v2-Q4_K_Sで、97秒の time-to-first-token と 0.007 tok/s。モデルの重み+KVキャッシュが約14 GBを超えると、性能は崖のように落ちます。

リンク:モデル一覧

このハードではMoEモデルが圧倒的に強い

指標 Dense(214利用可能) MoE(86利用可能)
中央値 TPS 4.4 20.0
中央値 TTFT 0.87s 0.66s
最大品質 46.2 50.4

活性パラメータが1〜3BのMoEモデルは、GPUメモリに収まりつつ、はるかに大きいdenseモデルに匹敵する品質を達成します。14Bを超えるdenseモデルは、メモリ帯域に餓えます。比較にならないほどです。

パレート最適なのは11モデルだけ

331のうち、パレートフロンティア(他のモデルが「速度と品質の両方」で上回れない)にいるのは11モデルのみ:

モデル tok/s 品質 アーキテクチャ
Ling-mini-2.0(Q4_K_S、abliterated) 50.3 24.2 MoE
Ling-mini-2.0(IQ4_NL) 49.8 25.8 MoE
Ling-mini-2.0(Q3_K_L) 46.3 26.2 MoE
Ling-mini-2.0(Q3_K_L、abliterated) 46.0 28.3 MoE
Ling-Coder-lite(IQ4_NL) 24.3 29.2 MoE
Ling-Coder-lite(Q4_0) 23.6 31.3 MoE
LFM2-8B-A1B(Q5_K_M) 19.7 44.6 MoE
LFM2-8B-A1B(Q5_K_XL) 18.9 44.6 MoE
LFM2-8B-A1B(Q8_0) 15.1 46.2 MoE
LFM2-8B-A1B(Q8_K_XL) 14.9 47.9 MoE
LFM2-8B-A1B(Q6_K_XL) 13.9 50.4 MoE

パレート最適なモデルはすべてMoEです。その他の331モデルは、この11モデルのどれかによって、厳密に支配(両面で劣る)されています。

コンテキスト拡張は意外とフラット

中央値 TPS 比(4096 vs 1024 コンテキスト):1.0x — 多くのモデルは1kから4kにしても劣化がほぼありません。中にはMoEモデルで、4kで実際に速度が上がるものもあります。このハードでは、4k時点ではメモリ帯域の“崖”はまだ来ていません。

並列度は純損失

並列度2では、リクエストあたりのスループットが0.55xまで落ちます(理想は 1.0x)。2つの同時リクエストが、同じ統一メモリバスを奪い合います。16 GBでは1リクエストずつ実行してください。

上位3つのおすすめ

1. LFM2-8B-A1B-UD-Q6_K_XL(unsloth)— 総合ベスト

  • 50.4の品質複合(331モデル中最高)
  • 13.9 tok/s、0.48s TTFT
  • 活性1BパラメータのMoE — 16 GB向けにアーキテクチャ的に理想

2. LFM2-8B-A1B-Q5_K_M(unsloth)— 品質モデル内で最速

  • 19.7 tok/s(最速のLFM2バリアント)
  • 44.6の品質 — トップから6ポイント未満の差
  • 最小の量子化=長いコンテキスト向けに余裕が最大

3. LFM2-8B-A1B-UD-Q8_K_XL(unsloth)— バランス型

  • 14.9 tok/s、47.9の品質
  • 快適な速度を保ちながらほぼトップクラスの品質

番外(推し):生の速度ならLing-mini

40〜50 tok/s(LFM2の3倍)ですが、品質は低め(22〜28の複合)。速度を正確さより優先するなら、50.3 tok/sのLing-mini-2.0-abliterated Q4_K_Sが“速度王”です。

Qwen3.5モデルが光る(そして光らない)ところ

テストしたのは213のQwen3.5バリアント——このベンチマークで最大のファミリーです——というデータから、はっきりした傾向が読み取れます。Qwen3.5-9Bは推論をしないMMLUマシンです。活性可能な34バリアントは、NR-MMLU(非推論の一般知識)で平均47%を示し、これは業界全体平均の25.5%のほぼ2倍です。さらに最高は65%に到達し、その結果、当該指標では300の利用可能モデルすべての中でトップ16に入ります。用途が事実の想起、一般知識のQ&A、またはチャットテンプレートなしの生の完了出力であれば、Qwen3.5-9Bは2〜4 tok/sで“実力以上”に踏ん張ります。

ただし落とし穴は推論の算数です。Qwen3.5-9Bのどのバリアントも推論GSM8Kで0%を記録します。つまり/v1/chat/completionsでシステムプロンプトを通して与えると、これらのモデルは一貫して20問の数学問題に失敗します。非推論GSM8Kのレーンの方はより良い(20〜35%)ため、チャットテンプレートまたはシステムプロンプトがQwen3.5の数学能力に積極的に干渉していることを示唆します。この「MMLUは強いがGSM8Kは弱い」というパターンは、このファミリーに固有です。LFM2、Nemotron、Devstralはいずれも、両方のベンチマークで相関した性能を示します。

27Bバリアントは16 GBで罠です。35の量子化のうち22が退化(メモリスラッシング)で、利用可能なものでも0.6〜4 tok/sまでしか進まず、最大の複合スコアも12.5です。35B-A3BのMoEバリアントも失望です。MoEアーキテクチャにもかかわらず、せいぜい2〜9 tok/sで、複合スコアの上限は13.8で、LFM2のMoEに大きく劣ります。4B系には面白い明るい話があります:Crow-4B-Opus-4.6-Distill-Hereticの蒸留版は、6.9 tok/sでNR-MMLU 53.3%、複合スコア20.8を達成し、蒸留が明らかに効いたことで、Qwen3.5-4Bバリアントの中で大差をつけて最良になっています。

結論:強い一般知識モデルが必要で、数学は気にしないならQwen3.5-9B Q4_0(4.0 tok/s、複合24.6、NR-MMLU 58%)を選んでください。16 GB上のそれ以外すべてでは、LFM2-8B-A1Bのほうが良い選択です。

なぜLFM2が勝つのか

LFM2-8B-A1Bは、トークンあたり活性パラメータが1Bだけの8B混合専門家(mixture-of-experts)モデルです。16 GBのMac Miniのようにメモリが限られたハードでは、ここがちょうど“甘い”ところです。トークンあたりのメモリ帯域への圧力が、dense 8Bモデルよりはるかに低いため、12〜20 tok/sを達成し、dense 8Bモデルはせいぜい5〜7 tok/sで頭打ちになります。そして品質も犠牲になりません。私がテストしたどのdenseモデルよりもスコアが高いのです。

MLXはどうですか?

私も37のMLXモデルをベンチマークしました。MLXは、ネイティブのMetal最適化により、Apple Silicon上でGGUFより約1.3倍高いスループットを達成します。最良のMLXモデル(nightmedia-LFM2-8B-A1B-qx64-hi-mlx)は、48.8の品質で32.8 tok/sを記録しました。モデルにネイティブのMLX重みが利用可能なら、GGUFよりMLXを優先してください。

16 GBメモリ壁のチートシート

モデルサイズ GPUオフロード? 何を期待すべきか
3B以下 フルGPU 15+ tok/s、秒未満のTTFT
4-8Bの密(dense) フルGPU 4-7 tok/s
4-8B MoE(1-3Bがアクティブ) フルGPU 12-50 tok/s
9-14B 部分的 2-4 tok/s
15-24B CPUフォールバック 2-4 tok/s、遅いTTFT
27B+の密(dense) CPU、ほとんど縮退 やめておく
35B MoE(3Bがアクティブ) 状況による 2-9 tok/s(試す価値あり)

注目すべき発見:

# 分析 重要な発見
1 Quantizer Shootout Quantizerの出どころは関係ない—違いはモデルミックスのアーティファクト
2 蒸留ROI 最もROIが高い介入:4Bを蒸留したものが、ほとんどの14-24Bのベースを上回る(+17.5の複合スコア)
3 量子化カーブ ベンチマークのノイズが、ほとんどのファミリでは量子化劣化のシグナルを上回る
4 Abliteration Audit 全体としての効果はなし(p=0.73)だが、HauhauCSの非検閲化はQwen3.5-9Bに対して特に役立つ
5 回帰モデル MoEが支配的な品質予測因子(R²=0.245、is_moe係数=+14)
6 並行性 c=2で一貫して55%の効率;MoEがわずかに良い;4K ctxは無料
7 BF16/F16の罠 フル精度は約0品質向上の割に2-8倍遅い;小型モデルでは積極的に有害
8 スピード-品質フロンティア 10個すべてのパレート最適モデルはMoE—フロンティア上に密(dense)モデルはゼロ
9 Quant Ladder Q4_0とQ4_K_Mが最も勝つ量子化として同率;Q3は検出可能な形で悪化させることはほとんどない
10 Wave Timeline 波20/35で見つかったモデルが最良;213のQwen3.5バリアントを追加しても、ほぼ新しい情報は増えなかった

この文書には、統計的な根拠、表、ASCIIの散布図、意思決定ツリー、そして「The Three Rules of 16 GB GGUF.」という形でのクロス分析の統合セクションが含まれています。
mradermacher、bartowski、unslothの量子化(quants)に関するさらなる分析は、品質の量子化分析をご覧ください

Qwen3.5

6つのサイズ階層にまたがる213のQwen3.5 GGUFバリアントから導出し、300の実用可能なモデルの集合に対してベンチマークしました。スコアはパーセンタイル正規化(0-10スケールで、5=集合の中央値)です。直接測定していない能力(ツール呼び出し、指示追従)は、ベンチマーク全データセットを用いた代理指標から推定しています。

手法

直接測定:速度=各サイズでの上位5量子の中央値(集合の0-50範囲に正規化) 遅延=ctx 1kにおけるTTFTの中央値(反転:低い=良い) 数学=avg(R-GSM8K, NR-GSM8K) — 20の数学の単語問題 知識=avg(R-MMLU, NR-MMLU) — 一般知識の質問60問 そこから推定:指示追従=reasoning_composite - non_reasoning_composite(正の値) chatテンプレートが出力を改善=モデルが指示に従う 負の値)chatテンプレートが出力を悪化=モデルが指示を無視する Context-handle=TPS比(4096 ctx / 1024 ctx)で、KVキャッシュ効率を測定 Tool-call推定=weighted(instruct_follow * 0.4 + speed * 0.3 + context_handle * 0.3) 必要なツール呼び出し:指示の理解 + 長いctxでの高速性 + 安定したHW実行可能性=16GBで(縮退していない)利用可能な量子の割合 N=213のQwen3.5モデルをテスト | フィールド=全ファミリにまたがる300の実用可能なモデル 

16 GB Mac Mini M4 における Qwen3.5 の能力スケーリング ================================================ 能力 0.8B 2B 4B 9B 27B 35B-A3B(0-10スケール) 28モデル 33モデル 51モデル 39モデル 35モデル 27モデル ───────────────────────────────────────────────────────────────────────────────────────── 速度 ████░░░░░░ ██░░░░░░░░░ █░░░░░░░░░░ █░░░░░░░░░░ ░░░░░░░░░░ ░░░░░░░░░░ (tok/s) 3.6 2.2 1.2 0.6 0.5 0.7 ~17 tok/s ~11 tok/s ~7 tok/s ~3 tok/s ~1 tok/s ~3 tok/s 遅延 ██████████ ██████████ █████████░ █████████░ █████████░ ████████░░ (TTFT) 9.9 9.7 9.2 8.7 9.1 8.2 ~0.15s ~0.24s ~0.55s ~1.1s ~0.5s* ~1.4s 数学 █░░░░░░░░░░ ██░░░░░░░░ ███░░░░░░░ ███░░░░░░░░ ███░░░░░░░ ████░░░░░░░ (GSM8K) 0.5 1.5 2.5 3.0 3.0 4.0 ~2.5% ~10% ~15% ~15% ~15% ~23% 知識 █░░░░░░░░░░ ████░░░░░░░ ████░░░░░░░ ██████░░░░░░ █░░░░░░░░░░ █░░░░░░░░░░ (MMLU) 1.2 4.3 4.4 6.0 1.0 0.8 ~3% ~26% ~26% ~36% ~6% ~5% 指示- ███████░░░ ████░░░░░░ █░░░░░░░░░░ ░░░░░░░░░░ █████░░░░░░ ████░░░░░░ Follow 7.4 3.6 1.2 0.1 5.1 4.2 chatテンプレートは助ける 混合 chatテンプレートは悪化 chatテンプレートは悪化 混合 混合 Context ███████░░░ ███████░░░ ███████░░░ ███████░░░ ███████░░░ ███████░░░ Handling 7.1 7.1 7.1 7.2 7.2 7.4 stable stable stable stable stable stable 品質 █░░░░░░░░░░ ███░░░░░░░ ███░░░░░░░ █████░░░░░░ ██░░░░░░░░ ███░░░░░░░░ (複合) 1.1 3.2 3.4 5.0 2.1 2.7 ~5 ~16 ~17 ~25 ~10 ~13 HW 実行可能性 ██████████ ██████████ █████████░ █████████░ ████░░░░░░░ ████████░░ (16 GB適合) 10.0 10.0 9.2 9.2 3.7 7.8 100% 100% 92% 92% 37% 78% ツール呼び出し ██████░░░░ ████░░░░░░░ ██░░░░░░░░░ ████░░░░░░░ ████░░░░░░░ (推定) 6.2 4.2 3.0 2.4 4.4 4.1 ───────────────────────────────────────────────────────────────────────────────────────── * 27BのTTFTが良さそうに見えるのは、極端に低ビットの縮退しない13個の量子だけが含まれているためです;それ以外の22個の量子はTTFTが15〜97秒です。 

主要なスケーリングパターン

Qwen3.5が0.8B→9Bへスケールするとき、5つのことが起こります: ┌─────────────────┐ 速度 ████████░░ ──────────────────> █░░░░░░░░░│ 低下6倍 │ 数学 █░░░░░░░░░ ──────────────────> ███░░░░░░░│ 増加6倍 │ 知識 █░░░░░░░░░ ──────────────────> ██████░░░│ 増加12倍 │ 指示追従 █████████░░ ──────────────────> ░░░░░░░░░░│ 崩れる │ 品質 █░░░░░░░░░ ──────────────────> █████░░░░░│ 9Bでピーク │ └─────────────────┘ そして9B→27B→35Bになると、別のことが起こります: ┌─────────────────┐ 品質 █████░░░░░░ ──────────────────> ██░░░░░░░░│ 低下(メモリ!) │ HW 実行可能性 █████████░ ──────────────────> ████░░░░░░░│ 低下(63%失敗)│ 知識 ██████░░░░░ ──────────────────> █░░░░░░░░░│ 崩れる │ 速度 █░░░░░░░░░░ ──────────────────> █░░░░░░░░░░│ ずっと悪い │ └─────────────────┘ 9Bは、16 GBのハードウェア上でのQwen3.5の絶妙なポイントです。

指示追従パラドックス

Qwen3.5には独特のパターンがあります:チャットテンプレートは大きいモデルを悪化させる。推論モードのスコアと非推論モードのスコアの差:0.8B: R = 3.4 NR = 2.1 gap = +1.3 チャットテンプレートはわずかに役に立つ 2B: R = 3.8 NR = 9.9 gap = -6.1 チャットテンプレートは悪化 4
B: R = 4.0 NR = 5.9 gap = -1.8 Chat template HURTS 9B: R = 5.4 NR = 33.0 gap = -27.7 Chat template DESTROYS quality 27B: R = 4.1 NR = 11.2 gap = -7.1 Chat template HURTS 35B: R = 5.6 NR = 14.0 gap = -8.5 Chat template HURTS 9Bではギャップが-27.7ポイントです――チャットテンプレート / system prompt により、モデルが数学能力をほぼALL(すべて)失います(R-GSM8Kが0%)し、MMLUの性能も大きく低下します。チャットテンプレートなし(生のcompletion)だと、9Bは65% NR-MMLUをスコアします――300モデルすべてのうちトップ5%です。これは次を意味します: ┌────────────────────────────────────────────────────────────────────┐ │ Qwen3.5-9Bは優れたcompletionエンジンですが、貧弱なチャットモデルです。 │ │ /v1/completionsを使い、/v1/chat/completionsは使わないでください。 │ │ ツール呼び出し / function callingは避けてください――チャットモードに依存します。 │ └────────────────────────────────────────────────────────────────────┘

NR-MMLUの異常

 Qwen3.5-9Bの非推論MMLUは、全300モデルの上位5%に入っています: フィールド平均 NR-MMLU: 25.5% Qwen3.5-9Bの中央値 NR-MMLU: 41.7% ← 1.6x フィールド平均 Qwen3.5-9Bの最高 NR-MMLU: 65.0% ← 全300モデル中トップ16 Butこの能力は推論モードでは見えなくなる: Qwen3.5-9B R-MMLU: 中央値 10.0% ← フィールド平均より下 Qwen3.5-9B R-GSM8K: 0.0%(ALL variants、ALL quants) 知識はモデルの中にある――しかしチャットテンプレートがそれを抑制します。 

サイズ推奨マトリクス

 ┌──────────┬─────────────────────────────────────────────────────────┐ │ 用途 │ 最適なQwen3.5サイズ │ 理由 │ ├──────────┼────────────────────┼──────────────────────────────────┤ │ Raw │ 9B Q4_0 │ 4 tok/s、65% NR-MMLU │ │ knowledge│(completionモード) │ │ 16GBで最も高い知識密度 │ ├──────────┼────────────────────┼──────────────────────────────────┤ │ 高速 │ 0.8B Q4_0 │ 20 tok/s、0.15s TTFT │ │ 返信│ │ 品質は低いが瞬時 │ ├──────────┼────────────────────┼──────────────────────────────────┤ │ 数学 │ Qwen3.5は使わないでください │ どのサイズでもR-GSM8Kが0% │ │ │ LFM2-8B-A1Bを使用 │ │ │ 60% R-GSM8K、14 tok/s │ ├──────────┼────────────────────┼──────────────────────────────────┤ │ チャット / │ Qwen3.5は使わないでください │ チャットテンプレートが品質を損なう │ │ アシスタント│ LFM2-8B-A1Bを使用 │ │ │ LFM2はチャットテンプレートで得をする │ ├──────────┼────────────────────┼──────────────────────────────────┤ │ ツール │ Qwen3.5は使わないでください │ ツール呼び出し=チャットモード │ │ calling │ │ │ LFM2-8B-A1Bを使用 │ │ │ 命令追従が必要 │ ├──────────┼────────────────────┼──────────────────────────────────┤ │ 27B+ │ 16GBでは使わないでください │ 63%がdegenerate、0-4 tok/s │ │ │ │ メモリスラッシングで使い物にならない │ └──────────┴────────────────────┴──────────────────────────────────┘ 最終結論:Qwen3.5は知識密度の高いcompletionエンジンであって、チャットアシスタントではありません。16GBでチャット/ツール呼び出しが必要なら、LFM2を使ってください。 

この結果はどのように計算されたか

すべてのスコアは、213のQwen3.5 GGUFバリアントに対して行った実際のベンチマーク測定から導出されています。48+の系統に属する300の実行可能なモデルと比較しました。合成ベンチマークや、モデルカードに書かれている主張は使用していません。

直接測定(llama-serverベンチマークから):

  • 速度、レイテンシ、コンテキスト処理:1024/4096コンテキストにおけるtokens/secとTTFT
  • 数学:GSM8Kの正確さ(数学の単語問題20問、完全一致の採点)
  • 知識:MMLUの正確さ(10科目にわたる60問)
  • HWの実行可能性:16GBでクラッシュせずdegenerateしない量子化の割合

測定データから推定(代理指標):

  • 命令追従:推論モード(system prompt付きのchat/completions)と非推論モード(生のcompletions)の差。チャットモードが助けるなら、モデルは命令に従う。チャットモードが害を与えるなら、モデルはsystem promptを無視するか、混乱する。
  • ツール呼び出し:命令追従(40%)、4kコンテキストでの速度(30%)、コンテキスト安定性(30%)の重み付き組み合わせ。ツール呼び出しには、構造化されたプロンプトの理解、長いコンテキストの取り扱い(関数スキーマ+会話履歴)、および利用可能な応答速度が必要です。

制限事項

  • GSM8K(20問)とMMLU(60問)は小さなサンプルです――分散が大きい
  • ツール呼び出し / function callingは推定であり、直接テストしていない
  • 「命令追従」の代理指標は、チャットテンプレート品質が命令追従と相関すると仮定している
  • すべての結果は16GBのMac Mini M4のハードウェアに固有です――異なるハードウェアでは順位が変わる可能性があります

Qwen3.5-9Bはコンパクション&コンテキストエンジニアリングのブレークスルー

私たちのベンチマークデータは、RAGやコンテキストエンジニアリング用にモデルを選ぶ方法に挑戦する、直感に反する発見を明らかにしました。「最も全体的に良いモデル」が「最も読解力(reading comprehension)に優れたモデル」とは限らない、ということです。

LFM2-8B-A1Bは、複合品質(50.4)、数学(60% R-GSM8K)、速度(15 tok/s)で圧倒的に優れています――16GBでの汎用ワークロードにおけるパレート最適な選択です。 しかし両方のモデルに対し、110Kトークンの怪物的(Frankenstein)なテキストから抽出したコンテキストのみ(12Kトークンの予算)を使って、読解問題8問に答えさせたところ、Qwen3.5-9B-Q8_0は3回の連続実行すべてで8/8を達成しました。一方LFM2は最大でも7/8で、平均は5.8/8でした。

致命的な失敗はQ4(「クラーヴァルはどこで殺されますか?」)でした。LFM2は常に「スイス」と回答しました――インコンテキストの証拠にある「アイルランド」を、パラメトリック知識で上書きしてしまったのです。Qwen3.5は毎回「the shore... the sands... Ireland」を忠実に報告しました。

これは能力プロファイルに直結します:Qwen3.5-9Bは上位5%のNR-MMLU(65%)を持ちます――つまり、コンテキストからの事実想起が非常に得意であることを意味します。一方で、その-27.7という命令追従ギャップは、モデルがテキストに自分の都合を押し付けないことを意味します。コンパクションエンジンやエージェント型RAGにおいて、これはまさに適切な特性です――「目の前の内容を読む」モデルが欲しいのであって、「より良く知っている」といって勝手に補うモデルは不要です。実務上の学びは、RAGシステムでは役割ごとに異なるモデルを使うべきだということです。すなわち、エージェントによるツール利用やターム生成のために高速で命令追従できるモデル(LFM2)、そして最終の読解回答のために知識密度が高くテキストに忠実なモデル(Qwen3.5-9B)を使います。

これにより、Qwen3.5で問題なく動作する(ターム生成という)単純なLLM呼び出しを行う抽出パイプラインを設計でき、回答フェーズでは、Qwen3.5が支配的である理由――長いコンテキストからの忠実な抽出――をそのまま活用できます。

すべてのデータは公開

完全なベンチマークデータ(331 GGUF + 37 MLXモデル)、すべてのスクリプト、自動化パイプライン、詳細な5段階レベルの分析ドキュメントはこちらで公開しています:

scripts/gguf_autopilot.py — 自動化されたパイプライン(ダウンロード、ベンチ、品質評価、アップロード、クリーンアップ、クラッシュ復旧)

これを自分のハードウェアで実行したい場合は、リポジトリをクローンし、HF_TOKEN を設定して、bash scripts/start_gguf_autopilot.sh を実行します。すべてを処理してくれます。

提出者: /u/Honest-Debate-6863
[リンク] [コメント]