Gemma 4 モデル向けの llama-server の初期化(init)文字列を共有してください。

Reddit r/LocalLLaMA / 2026/4/8

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • Reddit のユーザーが、llama.cpp(ローカル推論)経由で Gemma 4 モデルを動かそうとしているが、実用的な結果を生む init 文字列が見つからない。
  • llama.cpp の新しいバージョンではモデルの読み込み自体はできるものの、ユーザーは出力が「喪失(lobotomized)」したようになる、または生成が非常に遅い(RTX 6000 Pro で約 3 トークン/秒)といった問題が継続していると報告している。
  • ユーザーは特定の Gemma 4 バリアント(「heretic」版を含む)を試しており、画像解析のテストをしたいが、現状の性能では現実的ではない。
  • そこで、offloading、コンテキストサイズ、多モーダル/画像トークン設定などの関連フラグを含め、動作する llama-server の init 文字列/設定をコミュニティに共有してほしいと呼びかけている。

こんにちは。llama.cpp を使って、動作する Gemma 4 の推論を行いたいのですが、うまく動くものが見つかりません。最新の llama.cpp を使っていますが、現時点で3つのバージョンで試しました。最初は、llama.ccp が追いつくまで待てばよいだけなのかと思いました。実際に、前はモデルがまったく読み込めなかったのに、今は読み込めるようになったのですが、同じ問題が引き続き起きています。いくつかの ver4 モデルを試しましたが、結果はどちらかというと「まともに動かされていない(lobotomized)」か、あるいは極端に遅いです。今日はこれを試しました:

llama-server.exe -m .\models\30B\gemma-4-26B-A4B-it-heretic.bf16.gguf --jinja -ngl 200 --ctx-size 262144 --host 0.0.0.0 --port 13210 --no-warmup --mmproj .\models\30B\gemma-4-26B-A4B-it-heretic-mmproj.f32.gguf --temp 0.6 --top-k 64 --top-p 0.95 --min-p 0.0 --image-min-tokens 256 --image-max-tokens 8192 --swa-full

... そして、生成速度は 3t/s でした。RTX 6000 Pro を使っているので、そこには明らかに何か問題があります。具体的には画像解析をテストしたいのですが、この速度ではそれは難しいです。「heretic」版を使いたいのですが、いろいろなバージョンを試しても、同じ問題が出ます。

動作する llama.cpp の init 文字列を共有してもらえる方はいますか?

submitted by /u/AlwaysLateToThaParty
[リンク] [コメント]