EVR-1 Maano: Llama 3.1 8B の 3.93 GiB 圧縮。500 トークンでの反復が6%未満。標準の3-4ビット量子化が77-80%に達する中での新規圧縮手法、標準量子化ではない。

Reddit r/LocalLLaMA / 2026/3/13

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

Evrmind は EVR-1 Maano-8b を発表しました。Llama 3.1 8B の 3.93 GiB 圧縮で、HuggingFace 上で静かに公開されていた後、正式にローンチされました。
EVR-1 は学習済み補正層を備えた新規の 3 ビット圧縮を使用しており、GPTQ や AWQ のような標準的な量子化手法とは異なり、500 トークンを超える一貫性を保つよう設計されています。
ベンチマークでは、500 トークン時点で rep4 が 5.83%、1000 トークン時点で 20% 未満を達成し、Q3_K_M および Q4_K_M は 77-90% の範囲で低下せず大きく上回っています。
リリースには HuggingFace ページと GitHub バイナリが提供され、ストレステスト済みの一貫性評価と完全なベンチマークレポートが含まれています。

皆さん、こんにちは、

私はEvrmindのIbrahimです。英国のスタートアップで、AI圧縮とエッジ計算に取り組んでいます。私たちは、ほとんどの量子化手法が最適化していない点—すなわち、モデルが数百トークンを超えるテキストを実際に一貫して生成するかどうか—に焦点を当てた圧縮手法の開発に取り組んできました。

EVR-1 Maano-8bを発表します。Llama 3.1 8B の 3.93 GiB 圧縮です。数日間 HuggingFace 上で静かに公開されていましたが、これが正式な発表となります。

ダウンロード: https://huggingface.co/Evrmind/EVR-1-Maano-8b

バイナリ: https://github.com/Evrmind-UK/evr-llama/releases/tag/v1.0.0

---

EVR-1 とは？

EVR-1 は GPTQ、AWQ、または GGUF の標準的な量子化タイプではありません。独立して開発された、学習済み補正層を備えた新規の3ビット圧縮法です。私たちが解決しようとした問題は、標準的な3ビットおよび4ビットのモデルが困惑度では良好でも、500トークンの生成で反復ループに陥ってしまうことでした。EVR-1 はそれには陥りません。

---

ベンチマーク

すべてヘッドツーヘッド形式、同じベースモデル（Llama 3.1 8B）、同じハードウェア（RTX 6000 Ada）、温度 0、リピートペナルティなし、`--ignore-eos`（自然な停止を越える生成を強制して一貫性をストレステスト、全モデル同一条件）

一貫性（rep4 = 4-gram の反復率、低いほど良い、テストあたり5つのプロンプト）:

|----------|-----------|-------------------|--------------------|

| EVR-1 | 3.93 GiB | 5.83% | 19.68% |

| Q3_K_M | 3.83 GiB | 76.79% | 87.65% |

| Q4_K_M | 4.69 GiB | 79.45% | 89.69% |

Both Q3_K_M and Q4_K_M collapse into repetition loops on these prompts, the per-prompt variance between them is high (some prompts one is worse, some the other) but both are in the 77-90% range across the 5 prompts tested. EVR-1 stays under 6% at 500 tokens and under 20% at 1000 tokens. Full per-prompt breakdown and raw outputs are in [BENCHMARK_RESULTS.md](https://huggingface.co/Evrmind/EVR-1-Maano-8b/blob/main/BENCHMARK\\_RESULTS.md).

困惑度（wikitext-2）:

| Model | PPL (ctx=512) | PPL (ctx=2048) |

|----------------------|-----------------|-----------------|

| EVR-1 (3.93 GiB) | 6.70 | 6.19 |

| Q3_K_M (3.83 GiB) | 7.02 | 6.13 |

| Q4_K_M (4.69 GiB) | 6.58 | 5.74 |

デフォルトのコンテキスト（512）では、EVR-1 は Q3_K_M を上回ります。Q4_K_M は PPL ではまだ優れているものの、サイズも20%大きいです。

精度（ARC-Challenge、25ショット、全1172問）:

| Model | ARC |

|----------------------|--------|

| EVR-1 (3.93 GiB) | 59.8% |

| Q3_K_M (3.83 GiB) | 60.8% |

| Q4_K_M (4.69 GiB) | 61.3% |

---

The coher

Foundry Tools とは

Azure OpenAI Service ドキュメント

開発者のためのプロンプトエンジニアリング：実際に機能するパターン

Dev.to

ビジネスのニーズに最適なAIチャットモデル（2026年版）の選び方

Dev.to

フレームワークなしでNode.jsにマルチステップAIエージェントを構築する方法

Dev.to

あなたの“教える声”そのままに授業計画を生成するAIを作った（オープンソース）

Dev.to

EVR-1 Maano: Llama 3.1 8B の 3.93 GiB 圧縮。500 トークンでの反復が6%未満。標準の3-4ビット量子化が77-80%に達する中での新規圧縮手法、標準量子化ではない。

要点

関連記事

Foundry Tools とは

開発者のためのプロンプトエンジニアリング：実際に機能するパターン

ビジネスのニーズに最適なAIチャットモデル（2026年版）の選び方

フレームワークなしでNode.jsにマルチステップAIエージェントを構築する方法

あなたの“教える声”そのままに授業計画を生成するAIを作った（オープンソース）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer