Gemmaがうまく動かないから悪い、という意見はすでにいくつかありますが、あなたはtransformersの実装を使っているのではなく、llama.cppを使っているだけだと思います。
モデルがリリースされた後は、たとえば次のように、llama.cppのすべての修正が反映されるまで最低でも数日待つ必要があります:
https://github.com/ggml-org/llama.cpp/pull/21418
https://github.com/ggml-org/llama.cpp/pull/21390
https://github.com/ggml-org/llama.cpp/pull/21406
https://github.com/ggml-org/llama.cpp/pull/21327
https://github.com/ggml-org/llama.cpp/pull/21343
...ほかにもあるかもしれません?
チャットでループする問題がありましたが、OpenCodeでいくつか試しても(そもそもコーディングすらしていません)、問題はゼロでした。なので、おそらくGLM Flashと同じように、より良いプロンプトが何らかの形で考えすぎ/ループを直しているのでしょう。
[link] [comments]


