量子化モデル向けのコーディング・ベンチマークはありますか?

Reddit r/LocalLLaMA / 2026/4/8

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 著者は、コーディング・エージェントで用いられる量子化(低ビット)LLMに特化した、信頼できて最新のコーディング・ベンチマークがあるかどうかを問うています。
  • 近年の動的量子化によって速度が改善されることはあるものの、異なる量子化手法/段階の違いによって、モデル間でコーディングやエージェント的挙動が一貫しなかったり、「奇妙」になったりし得ると報告しています。
  • 著者は、KDE、Perplexity、MMLUのような一般的ベンチマークではなく、量子化モデルに対して、SWE-BenchファミリーやLiveCodeBench V6などの代表的なコーディング・ベンチマークで、リーダーボード形式の評価を望んでいます。
  • HumanEvalのような手に入れやすい代替手段について、これはオープンループで真にエージェント的ではないため、適切ではないと指摘し、エージェント挙動を反映するベンチマーク設定の必要性を強調しています。
  • 投稿では、著者が見つけられたベンチマークデータは古いか不完全なものに限られており、量子化したコーディング性能を測定・報告するコミュニティの取り組みにギャップがあることを示唆しています。

私はローカルLLMや、それらを使ったコーディングエージェントについて、いろいろといじくり回しています。使いたいモデルの中には、私のHW上では大きすぎて動かせないもの(MiniMax-M2.5、お前のことだ)か、実用に耐えるには遅すぎるもの(<50 tok/s はつらい)があります。なので私は低ビットの量子化を選んでいます。最近の動的量子化はかなり良い性能を出していて速い可能性もありますが、ときどき、それらにコーディングをさせると奇妙な挙動が見られます。量子化方法や量子化レベルが異なると、エージェント的なコーディング能力への影響の受け方もモデルによって違うようです。

主要なコーディングベンチマーク(SWE-Benchファミリー、LiveCodeBench V6、その手のもの)について、KDEやPerplexity、MMLUだけでなく、何らかのランキング(リーダーボード)が見られると嬉しいです。HumanEvalであっても受け入れます。とはいえ、オープンループであってエージェント的ではないので、多少は渋々ですが。

私が見つけられたのは(ついでに言うと、FWIWとしてChatGPTにもDeep Researchを頼みましたが)古くて筋の悪い数字ばかりでした。きっと多くの人が、私と同じ疑問で頭を抱えているはずなのに、なぜ量子化版のリーダーボードがないのでしょうか?

submitted by /u/mr_il
[link] [comments]