EVR-1 Maano: Llama 3.1 8B の 3.93 GiB 圧縮。500 トークンでの反復が6%未満。標準の3-4ビット量子化が77-80%に達する中での新規圧縮手法、標準量子化ではない。

Reddit r/LocalLLaMA / 2026/3/13

📰 ニュースTools & Practical UsageModels & Research

要点

  • Evrmind は EVR-1 Maano-8b を発表しました。Llama 3.1 8B の 3.93 GiB 圧縮で、HuggingFace 上で静かに公開されていた後、正式にローンチされました。
  • EVR-1 は学習済み補正層を備えた新規の 3 ビット圧縮を使用しており、GPTQ や AWQ のような標準的な量子化手法とは異なり、500 トークンを超える一貫性を保つよう設計されています。
  • ベンチマークでは、500 トークン時点で rep4 が 5.83%、1000 トークン時点で 20% 未満を達成し、Q3_K_M および Q4_K_M は 77-90% の範囲で低下せず大きく上回っています。
  • リリースには HuggingFace ページと GitHub バイナリが提供され、ストレステスト済みの一貫性評価と完全なベンチマークレポートが含まれています。

皆さん、こんにちは、

私はEvrmindのIbrahimです。英国のスタートアップで、AI圧縮とエッジ計算に取り組んでいます。私たちは、ほとんどの量子化手法が最適化していない点—すなわち、モデルが数百トークンを超えるテキストを実際に一貫して生成するかどうか—に焦点を当てた圧縮手法の開発に取り組んできました。

EVR-1 Maano-8bを発表します。Llama 3.1 8B の 3.93 GiB 圧縮です。数日間 HuggingFace 上で静かに公開されていましたが、これが正式な発表となります。

ダウンロード: https://huggingface.co/Evrmind/EVR-1-Maano-8b

バイナリ: https://github.com/Evrmind-UK/evr-llama/releases/tag/v1.0.0

---

EVR-1 とは?

EVR-1 は GPTQ、AWQ、または GGUF の標準的な量子化タイプではありません。独立して開発された、学習済み補正層を備えた新規の3ビット圧縮法です。私たちが解決しようとした問題は、標準的な3ビットおよび4ビットのモデルが困惑度では良好でも、500トークンの生成で反復ループに陥ってしまうことでした。EVR-1 はそれには陥りません。

---

ベンチマーク

すべてヘッドツー ヘッド形式、同じベースモデル(Llama 3.1 8B)、同じハードウェア(RTX 6000 Ada)、温度 0、リピートペナルティなし、`--ignore-eos`(自然な停止を越える生成を強制して一貫性をストレステスト、全モデル同一条件)

一貫性(rep4 = 4-gram の反復率、低いほど良い、テストあたり5つのプロンプト):

| Model | Size | rep4 @ 500 tok | rep4 @ 1000 tok |

|----------|-----------|-------------------|--------------------|

| EVR-1 | 3.93 GiB | 5.83% | 19.68% |

| Q3_K_M | 3.83 GiB | 76.79% | 87.65% |

| Q4_K_M | 4.69 GiB | 79.45% | 89.69% |

Both Q3_K_M and Q4_K_M collapse into repetition loops on these prompts, the per-prompt variance between them is high (some prompts one is worse, some the other) but both are in the 77-90% range across the 5 prompts tested. EVR-1 stays under 6% at 500 tokens and under 20% at 1000 tokens. Full per-prompt breakdown and raw outputs are in [BENCHMARK_RESULTS.md](https://huggingface.co/Evrmind/EVR-1-Maano-8b/blob/main/BENCHMARK\\_RESULTS.md).

困惑度(wikitext-2):

| Model | PPL (ctx=512) | PPL (ctx=2048) |

|----------------------|-----------------|-----------------|

| EVR-1 (3.93 GiB) | 6.70 | 6.19 |

| Q3_K_M (3.83 GiB) | 7.02 | 6.13 |

| Q4_K_M (4.69 GiB) | 6.58 | 5.74 |

デフォルトのコンテキスト(512)では、EVR-1 は Q3_K_M を上回ります。Q4_K_M は PPL ではまだ優れているものの、サイズも20%大きいです。

精度(ARC-Challenge、25ショット、全1172問):

| Model | ARC |

|----------------------|--------|

| EVR-1 (3.93 GiB) | 59.8% |

| Q3_K_M (3.83 GiB) | 60.8% |

| Q4_K_M (4.69 GiB) | 61.3% |

---

The coher