私はローカルLLMや、それらを使ったコーディングエージェントについて、いろいろといじくり回しています。使いたいモデルの中には、私のHW上では大きすぎて動かせないもの(MiniMax-M2.5、お前のことだ)か、実用に耐えるには遅すぎるもの(<50 tok/s はつらい)があります。なので私は低ビットの量子化を選んでいます。最近の動的量子化はかなり良い性能を出していて速い可能性もありますが、ときどき、それらにコーディングをさせると奇妙な挙動が見られます。量子化方法や量子化レベルが異なると、エージェント的なコーディング能力への影響の受け方もモデルによって違うようです。
主要なコーディングベンチマーク(SWE-Benchファミリー、LiveCodeBench V6、その手のもの)について、KDEやPerplexity、MMLUだけでなく、何らかのランキング(リーダーボード)が見られると嬉しいです。HumanEvalであっても受け入れます。とはいえ、オープンループであってエージェント的ではないので、多少は渋々ですが。
私が見つけられたのは(ついでに言うと、FWIWとしてChatGPTにもDeep Researchを頼みましたが)古くて筋の悪い数字ばかりでした。きっと多くの人が、私と同じ疑問で頭を抱えているはずなのに、なぜ量子化版のリーダーボードがないのでしょうか?
[link] [comments]



