LLM向け量子化テスト用サイト/リソースを作る:最初の1か月の知見共有と今後への希望

Reddit r/LocalLLaMA / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 著者は、量子化がオープンウェイトLLMの実務タスクでの品質に与える影響を分かりやすくするための、LLM量子化テスト用リソースを構築している。
  • 新しいモデルが登場すると短期間で大量の量子化派生が出回る一方で、「どれが十分良いのか」の透明性に欠けている点を指摘している。
  • 約1か月のベンチマークの結果として、1日あたり約10テストを実行し、最初の1か月で268の量子化バリアントを評価したと報告している。
  • 具体例として「ビジョン推論」の量子化結果を挙げ、Qwen 3.5 35B(A3B)、Gemma 4 26B(A4B)、Qwen 3.6 35B(A3B)などで、トークン効率の差も含めて比較している。
  • AIコストが上昇した場合にオープンウェイトLLMの理解・評価の重要性が高まる可能性があることが、プロジェクトの動機になっている。
Building on a LLM Quants Testing Site/Ressource - Sharing a few insights from first month, so you can share your thoughts and wishes for the future.

これから構築しているプロジェクトについて、いくつか洞察を共有したいと思います。焦点は、量子化が実務タスクにおけるオープンウェイトのモデルにどう影響するかを、より理解しやすくすることです。新しいモデルがリリースされるたびに、最初の数日で即座に +200 の量子化が公開されているように見えます。これは実際とても良いのですが、LLM の量子化を選ぶ際に「どこまでが十分なのか(good enough)」についての透明性に、いくらかギャップがあると感じています。

「いわゆる主流」の AI の現状認識として、コストが増える可能性があることを踏まえると、オープンウェイトの LLM モデルの今後は、私たちが思っているよりもずっと早く、平均的な人にとってより身近な存在になるかもしれません。AI のコストが爆発的に上がるなら、オープンウェイト AI の理解が、それを支えるうえで非常に重要になります。というわけで、これはその前提から始まっています。

私は、量子化品質と、実用テストケースにおける性能低下(ドロップオフ)に焦点を当てたベンチマーク用テストスイートの解決策を作っています。ベンチマークテストは約1か月間継続しており、毎日およそ10件のテストを実行しています。最初は壊れているものがないか確認するためにゆっくり始め、その一方で、あちこちを最適化しながら進めてきました。これまでのところ、この最初の1か月で 268 個の量子化をテストしました。手元の余力に応じて、量子化テストを追加し続けるつもりです。毎週 50〜100 件程度の新しい量子化テスト実行を追加していく見込みです。モデル効率(どれだけ速く/効率よく回せるか)は、追加の量子化をどれだけ早くカバーできるかに大きく影響します。加えて、私自身の GPU 利用可能性も重要です。

例えば、Vision Reasoning(視覚推論)に関する 79 の量子化テスト結果:

Qwen 3.5 35B A3B vs. Gemma 4 26B A4B IT vs Qwen 3.6 35B-A3b

https://preview.redd.it/5ykdj36ah4zg1.png?width=956&format=png&auto=webp&s=466481e0d34503cfffa721065ec69eab8e17a9e0

さらに、3つのモデルにおける効率(トークン使用量)の平均結果

https://preview.redd.it/4rcb8m85o4zg1.png?width=953&format=png&auto=webp&s=ae82030177c5573ed9869fb5dfa8a51ca41eeae8

Qwen 3.6 35B A3B は、他の2つよりも一般的に、はるかに多くのトークンを使用していますが、より良い結果を出しているわけではありません。

要点:より少ないトークン数で「動く」AI モデルなら、同じタスクに対して複数のループを回すことで、さらに良い結果を引き出すために事実上活用できます。AI の効率は掘り下げる価値が非常に大きいです。

----

これまでにテストした以下のモデル:

qwen3.5-35b-a3b(22件の量子化をテスト)

gemma4-26b-a4b-it(24件の量子化をテスト)

qwen3.6-27b(14件の量子化をテスト)

qwen3.6-35b-a3b(33件の量子化をテスト)

qwen3.5-2b(26件の量子化をテスト)

qwen3.5-4b(26件の量子化をテスト)

qwen3.5-27b(24件の量子化をテスト)

gemma-4-e2b-it(24件の量子化をテスト)

gemma4-e4b-it(24件の量子化をテスト)

qwen3.5-0.8b(29件の量子化をテスト)

qwen3.5-9b(22件の量子化をテスト)

ハードウェアのテスト構成:

VPSサーバー → Tailscaleトンネル → RTX 5090 搭載のWindows PC → LM Studio(サーバー)

より多くの種類の量子化モデルをカバーするために、Blackwell RTX 6000 を追加することを検討しています。

Blackwell RTX 6000 を追加することは考えていますが、主なアイデアは、コンシューマー向けGPUカードで実行できる量子化モデルのテストに集中することです。つまり、VRAM 使用量は概ね 32GB までのモデルを主なターゲットにしています。このカードを特に追加したい理由は、RTX 5090 と RTX 6000 の速度が近いことです。そうすれば、トークン/秒の計測を継続的に行う際に、ある程度比較しやすくなります。一方で、別の種類のセットアップを追加すると、実環境でのトークン/秒の計測が偏ってしまい、データポイントとして同じ価値にならない可能性があります。LM Studio は最速ではありませんが、ベースラインとして、AIに入りたての人が自分で深く理解していなくてもまず始められる環境です。

ベンチマークは6つのテストスイートで構成されています:

- 「ツール呼び出し(Tool-Calls)」64テスト

- 「命令追従(Instruction Following)」64テスト

- 「構造化出力(Structured Output)」64テスト

- 「コードの正確性(Code Correctness)」64テスト

- 「ロジック&推論(Logic & Reasoning)」64テスト

- 「ビジョン推論(Vision Reasoning)」64テスト

つまり全体として、各そしてすべての量子化は 384 のテストケースに対してテストされます。

テストは実務的であり、どこで・どのように量子化モデルが壊れるのかを示すことを意図しています。特に、作業の分野を混ぜ合わせて行う実務の場面です。

テストは、特定の(正しい)答えだけを受け付けるように作られています。つまり、特定の回答フォーマットで正しいことだけが正解です。

例:単一の推論テストから得られた、生のテスト出力:

// "<answer>no</answer>" :: 正しい答え(正しいフォーマット)== correct(正解)

// "<answer>120</answer>" :: 間違った答え(正しいフォーマット)== wrong(不正解)

// "Based on the visual evidence, no, the blister package has not been opened. The packaging shows multiple identical units of Paracetamol (Poro) tablets arranged vertically in a single row. There is no indication that the package was opened or that any tablet inside has been removed." :: 言語による説明 == wrong(不正解)

// "No" :: 正しい答え(間違ったフォーマット)== wrong(不正解)

モデルが質問とともにプロンプトを与えられるとき、各テストの回答に対して、応答できる出力トークンが 4096 トークンに制限されるという制約で調整(ナッジ)されています。これまでの実際の出力を見ると、テストあたりの平均的な正解が、この「制約」のうち 10% 未満しか消費していないことが分かっています。

継続的な分析のために高品質なデータを提供できるようにするため、重要だと思える情報データポイントのうち、私が見つけて含められるものはすべて実装して取得しました。例えば:

- 生のレスポンス出力

- 入力トークン

- 出力トークン

- レイテンシ(ms)

- トークン出力速度

- 合格(Score - 4つのテストスイートにより部分的に正しい回答が許容されます)

Webサイトが用意されています。デスクトップではかなり良好に動作します(モバイルでも半分は良好です)。

Webサイトには、個々のテストケースの出力を検査できる 64 ピクセルのグリッド表示「ヒートマップ」があります。

https://preview.redd.it/hrxot71dt4zg1.png?width=2153&format=png&auto=webp&s=966efc4ad4179ba915c1c16b677ff25daf5bd38b

Webサイトには、最新のテスト実行を確認できる履歴の概要があります。テストが実行されるのに合わせてリアルタイムで更新されます:

https://preview.redd.it/a9z6u2f7u4zg1.png?width=2153&format=png&auto=webp&s=a14b4c110ecb8149b25fa817d36cc02f14ea4626

私はレポートビルダーも作業中です。誰でもデータに対してカスタムレポートを作れるようにするために:

https://preview.redd.it/0r3tbpwiu4zg1.png?width=2151&format=png&auto=webp&s=81b9465a00d47cba8800480aff39a1f1bf435627

このプロジェクトとその意図がお役に立てば幸いです。このアイデアは、AIの取り組みにおいてLLMモデルの量子化を選ぶ際に、よりデータに基づいた道を選ぶことに関心のあるすべての人を助けることです。

追伸:このプロジェクトやテスト結果について共有できる情報はたくさんあります。特に関心のある点があれば書き込んでください。その特定の領域について、次回の投稿の文章をより深く準備できるようにします。スポンサーや収益化はありません。AIへの関心によって動いています。

によって投稿されました /u/norms_are_practical
[リンク] [コメント]