Unslothとllama.cppを使うとGemma 4が深刻に壊れる

Reddit r/LocalLLaMA / 2026/4/3

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • Redditのユーザーが、Unslothの量子化を使ってローカルのllama.cpp上でGemma 4を実行したところ、意味不明な出力が生成されると報告している。ニュース記事に対する基本的なタイプミス訂正テストに失敗した。
  • この問題は複数のGemma 4バリアント(26B/31B、MoEを含む)と、複数の量子化フォーマット(例:UD-Q8_K_XL、Q8_0、UD-Q4_K_XL)で発生するという。これは、単一のチェックポイントというより、より広範な互換性、もしくは推論/量子化の問題を示唆している。
  • 同じタイポ(タイプミス)検出タスクはGoogle AI Studioでは正しく動作する。したがって、モデル自体の挙動はマネージド環境では期待通りである可能性がある。
  • ユーザーは最新のllama.cppの変更と標準的なサンプリング設定を使用している。そのため、この挙動はプロンプトパラメータというより、ローカルのツールチェーン(Unsloth + llama.cpp)に固有のものだと考えられる。
  • この投稿は、ローカルでGemma 4を運用している開発者にとっての早期警告として機能しており、量子化/推論の互換性を切り分けるためのトラブルシューティングが必要であることを示している。
Gemma 4 is seriously broken when using Unsloth and llama.cpp

こんにちは!確認なんですが、Gemma 4をローカルで使うと深刻な問題が起きているのは、私だけでしょうか?

Unslothのクオンツをllama.cppで使ってGemma 4をいじってみたのですが、かなり壊れています。llama.cppの最新の変更に加えて、推奨されているtemperature、top-p、top-kも使っています。

記事を渡して、すべてのタイプミスを挙げ、正しいバージョンを一緒に出すように頼むと、完全に意味のない結果になります。こちらが、私がテストに使ったランダムなニュース記事です: https://www.bbc.com/news/articles/ce843ge47z4o

26B MoEも試しました。31Bも試しました。UD-Q8_K_XL、Q8_0、UD-Q4_K_XLも試しました。それらすべてで同じ問題が起きます。

対照として、同じことをGoogle AI Studioでも試しましたが、こちらではモデルがうまく動いてくれて、ローカルで私が受け取る意味のない結果ではなく、実際のタイプミスを見つけてくれました。

submitted by /u/Tastetrykker
[link] [comments]