ローカルでいくつかのモデルを異なる量子化レベルで動かしてみたのですが、正直なところQ5からQ4への移行が「何も変わらない」ように感じることもあれば、長い出力では一気に一貫性が崩れてしまうこともあります。崖(限界)は一般的にどこらへんにあるのか、それともモデルのアーキテクチャと、それをどう使っているか次第で完全に決まるのでしょうか。ここで日常的に使うために実際にどの量子化レベルに落ち着いているのか、また、品質が本当に重要なときにどれを使っているのか聞かせてほしいです
[リンク] [コメント]
Reddit r/LocalLLaMA / 2026/4/15
ローカルでいくつかのモデルを異なる量子化レベルで動かしてみたのですが、正直なところQ5からQ4への移行が「何も変わらない」ように感じることもあれば、長い出力では一気に一貫性が崩れてしまうこともあります。崖(限界)は一般的にどこらへんにあるのか、それともモデルのアーキテクチャと、それをどう使っているか次第で完全に決まるのでしょうか。ここで日常的に使うために実際にどの量子化レベルに落ち着いているのか、また、品質が本当に重要なときにどれを使っているのか聞かせてほしいです