皆さん、こんにちは、
私はEvrmindのIbrahimです。英国のスタートアップで、AI圧縮とエッジ計算に取り組んでいます。私たちは、ほとんどの量子化手法が最適化していない点—すなわち、モデルが数百トークンを超えるテキストを実際に一貫して生成するかどうか—に焦点を当てた圧縮手法の開発に取り組んできました。
EVR-1 Maano-8bを発表します。Llama 3.1 8B の 3.93 GiB 圧縮です。数日間 HuggingFace 上で静かに公開されていましたが、これが正式な発表となります。
ダウンロード: https://huggingface.co/Evrmind/EVR-1-Maano-8b
バイナリ: https://github.com/Evrmind-UK/evr-llama/releases/tag/v1.0.0
---
EVR-1 とは?
EVR-1 は GPTQ、AWQ、または GGUF の標準的な量子化タイプではありません。独立して開発された、学習済み補正層を備えた新規の3ビット圧縮法です。私たちが解決しようとした問題は、標準的な3ビットおよび4ビットのモデルが困惑度では良好でも、500トークンの生成で反復ループに陥ってしまうことでした。EVR-1 はそれには陥りません。
---
ベンチマーク
すべてヘッドツー ヘッド形式、同じベースモデル(Llama 3.1 8B)、同じハードウェア(RTX 6000 Ada)、温度 0、リピートペナルティなし、`--ignore-eos`(自然な停止を越える生成を強制して一貫性をストレステスト、全モデル同一条件)
一貫性(rep4 = 4-gram の反復率、低いほど良い、テストあたり5つのプロンプト):
| Model | Size | rep4 @ 500 tok | rep4 @ 1000 tok |
|----------|-----------|-------------------|--------------------|
| EVR-1 | 3.93 GiB | 5.83% | 19.68% |
| Q3_K_M | 3.83 GiB | 76.79% | 87.65% |
| Q4_K_M | 4.69 GiB | 79.45% | 89.69% |
Both Q3_K_M and Q4_K_M collapse into repetition loops on these prompts, the per-prompt variance between them is high (some prompts one is worse, some the other) but both are in the 77-90% range across the 5 prompts tested. EVR-1 stays under 6% at 500 tokens and under 20% at 1000 tokens. Full per-prompt breakdown and raw outputs are in [BENCHMARK_RESULTS.md](https://huggingface.co/Evrmind/EVR-1-Maano-8b/blob/main/BENCHMARK\\_RESULTS.md).
困惑度(wikitext-2):
| Model | PPL (ctx=512) | PPL (ctx=2048) |
|----------------------|-----------------|-----------------|
| EVR-1 (3.93 GiB) | 6.70 | 6.19 |
| Q3_K_M (3.83 GiB) | 7.02 | 6.13 |
| Q4_K_M (4.69 GiB) | 6.58 | 5.74 |
デフォルトのコンテキスト(512)では、EVR-1 は Q3_K_M を上回ります。Q4_K_M は PPL ではまだ優れているものの、サイズも20%大きいです。
精度(ARC-Challenge、25ショット、全1172問):
| Model | ARC |
|----------------------|--------|
| EVR-1 (3.93 GiB) | 59.8% |
| Q3_K_M (3.83 GiB) | 60.8% |
| Q4_K_M (4.69 GiB) | 61.3% |
---
The coher




