私たちは皆、Q4_K_XLモデルをQ6_Kのように感じさせるためにイマトリクスを使う、現代的な「インテリジェント」量子化を知っています。
しかし、ここで私が気づいたことがあります。これはほとんどの英語タスクではうまく機能しますが、他の言語やニッチなタスクではその効果が逆になることがあります。
理由はとてもシンプルで、イマトリクスファイルを見ればすぐ分かります。ここには英語が80%あり、ほとんどが基本的なタスクで、いくつかのコードが含まれている、という内容です。少数のイマトリクスファイルだけが、思慮深いエンジニアリングの成果です。
だから最近は、私はほとんどの場合またクラシックなQ4_K_Mを使っています。
もちろん例外が1つあります:
Q1またはQ2まで深く下げる場合です。貧弱なイマトリクスでも、まったくキャリブレーションしないよりはましです。ここでは空気がかなり薄くなり、モデルは通常、英語でしか実用にならないからです。
皆さんはどう思いますか?似た経験ですか、それとも違いますか?
[link] [comments]