6つのLLMを圧縮してみたら、意外なことが分かった：劣化の仕方はモデルごとに異なる

Reddit r/LocalLLaMA / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

本研究では、トランスフォーマーモデル内のMLP層を圧縮（量子化やカスタムカーネルは用いず）し、ARC、HellaSwag、MMLU、TruthfulQA の各ベンチマークで精度低下を評価している。
いくつかのモデルは他よりはるかに圧縮に耐えることが分かった。たとえば Gemma 2B は約14%の圧縮でも精度を約92%維持するのに対し、Llama 3.1 8B は同じ水準では約85%まで低下する。
元のパープレキシティ改善は、下流のベンチマークには反映されず、圧縮が下流タスクに与える意味についての従来の仮説を覆すものである。
結果はモデル固有の効率性のフロンティアを浮かび上がらせる。すべてのモデルは滑らかに劣化するが、その速度は非常に異なり、推論のようなタスクは言語のみのタスクよりも早く低下し、RAG/チャットはより多くの圧縮を許容する。
彼らは vLLM/TGI/llama.cpp と互換性のある標準的な Dense HF チェックポイントを提供しており、カスタムカーネルは不要で、量子化と併用可能である。今後のステップとして、モデルごとの圧縮点を自動的に見つけることや、より多くのアーキテクチャへ拡張することが挙げられる。

私たちは6つのLLMを圧縮し、驚くべきことを発見しました：彼らは同じように劣化しません

TL;DR: トランスフォーマー内部のMLP層を縮小します（量子化なし、カスタムカーネルなし）そしてARC、HellaSwag、MMLU、TruthfulQAで精度がどの程度低下するかを測定しました。

モデル間で同様の挙動を期待していました。

私たちは間違っていました。

さらに驚くべきことに、元のPPLの改善はベンチマーク上で下流へと伝わりませんでした。

重要な結果

いくつかのモデルは他よりもはるかに圧縮可能です。

Gemma 2B → 14%の圧縮で約92%の精度を維持
Llama 3.1 8B → 同じ圧縮で約85%へ低下

同じ手法。同じ%の削減。全く異なる結果。

効率のフロンティア

(下のチャート)

各ラインは0 → 約40%のMLP削減から圧縮されたモデルです。

結論:
すべてのモデルは滑らかに劣化します — しかしその速度は非常に異なります。

際立った点

Gemmaが最も良く圧縮される（初期のフラットなカーブ）
Llamaは最も早く劣化する（特に大きなモデルで）
MMLUが最初に低下する（推論が早い段階で壊れる）
TruthfulQAはほとんど動かない（言語はそのまま保たれる）

これが意味すること

「正解の圧縮レベル」は1つではありません。

モデル固有の効率のフロンティアがあります。

例:

RAG / チャット → より多くの圧縮に耐えられる
推論エージェント → すぐに壊れる

なぜこれは有用なのか

標準の密なHFチェックポイントを出力します:

vLLM / TGI / llama.cppに対応
カスタムカーネルなし
量子化と併用可能

この中の小型の密なモデルを1つ選び、さらにそれを量子化することもできます！

次に探究していること

モデルごとに最適な圧縮ポイントを自動的に見つける
さらに多くのアーキテクチャへ拡張
なぜ一部のモデルがよりよく圧縮されるのかを理解する
さらに深い圧縮で品質を向上させる、ランタイムには依存しないまま

これを面白いと感じ、こうした圧縮をしてほしいモデルの提案がある人を募集しています。作業には約25分かかるので、あらゆる提案・洞察など歓迎です。

現在、前線を作るためにベースラインを2.0x未満のPPLで使用していますが、異なるSLOを前提とした最適化も容易です。

ユーザーの皆さんが何を求めているのか、インサイトが必要です。

これがかっこいいと思う人と一緒に仕事できることを楽しみにしています。

モデル + コード: https://huggingface.co/dystrio

他の人はどう考えているか興味があります — 実際にこれらのトレードオフをどこで実行しますか？

https://preview.redd.it/5durtlal2lpg1.png?width=2379&format=png&auto=webp&s=d66e06b3961f280a0f4e00cdb3ceb2c171d13afb

https://preview.redd.it/j237iwzm2lpg1.png?width=2754&format=png&auto=webp&s=8e9a686a07ebbc41dd6bba2b006e69ec753d7dc9

投稿者 /u/Quiet_Training_8167
[link] [comments]

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

Publickey

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

Publickey

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント