llama.cpp における Gemma 4 の修正点4つ

Reddit r/LocalLLaMA / 2026/4/4

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

ユーザーは、Gemma の品質面の問題は実装に固有である可能性があり、他のトランスフォーマー系パイプラインよりも llama.cpp 経由で Gemma モデルを使うと、多くの報告された問題が消えると述べています。
この記事では、Gemma 4 に関連する修正を含む複数の最近の llama.cpp のプルリクエストを挙げており、モデルのリリース後にエコシステムが挙動を修正していくことが多いことを示唆しています。
そのような修正は、モデルが初めてリリースされてから llama.cpp に反映されるまで通常数日かかると強調しています。
個人的なテストが紹介されており、あるシナリオではチャットがループする問題が発生したが、別のシナリオでは発生しなかったことから、プロンプトの選択や利用状況などが、観測される問題に大きく影響し得ることを示しています。
投稿は、読者に進行中の llama.cpp のアップデートを確認するよう促しており、挙げられている PR 以外にも追加の修正がある可能性があることを示しています。

Gemmaがうまく動かないから悪い、という意見はすでにいくつかありますが、あなたはtransformersの実装を使っているのではなく、llama.cppを使っているだけだと思います。

モデルがリリースされた後は、たとえば次のように、llama.cppのすべての修正が反映されるまで最低でも数日待つ必要があります:

...ほかにもあるかもしれません？

チャットでループする問題がありましたが、OpenCodeでいくつか試しても（そもそもコーディングすらしていません）、問題はゼロでした。なので、おそらくGLM Flashと同じように、より良いプロンプトが何らかの形で考えすぎ／ループを直しているのでしょう。