M4 Max(64GBユニファイド)でoMLX + OpenCode上のGemma 4 26Bを動かしたが、能力の設定を誤っている/キャリブレーションを間違えているのか?

Reddit r/LocalLLaMA / 2026/4/13

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Redditのユーザーが、M4 Max(64GBユニファイドメモリ)環境で、oMLX 0.3.5dev1上にOpenCodeのハーネスを使ってGemma 4 26B(4-bit、200kコンテキスト)を実行する際に、能力(capabilities)の設定を誤っている、または理解を誤っているのではないかと質問している。
  • ユーザーは、高いthinkingBudget設定にもかかわらずモデルが「考える」ことに失敗することがあると報告している。また、ツール呼び出しをアナウンスした後にそれを実行せず停止することがあり、推論パーサーやチャットテンプレート/ツール呼び出しの取り扱いに関する疑問が挙がっている。
  • 同様のハードウェアで動かしている他のユーザーと比べてトークン生成が遅いことも観察しており、原因としてははるかに大きい200kコンテキストが主因ではないかと推測している。
  • さらに、デフォルトのrepetition penaltyのままで繰り返しループが発生するのを見ており、この挙動が後続のoMLXバージョンで改善またはパッチ適用されたのかを気にしている。
  • 会話の中心は、oMLX/Opencodeの正しい設定(例:reasoning_parserの選択や関連するランタイムパラメータ)について助言を求めるトラブルシューティング・スレッドである。
Gemma 4 26B on oMLX with OpenCode, M4 Max, 64GB unified - am I doing something wrong/miscalibrated on capabilities here?

https://preview.redd.it/u5y6j3a1etug1.png?width=1668&format=png&auto=webp&s=5a1cefb7cbe71522fa9f9ce599ae09969ce90629

https://preview.redd.it/7j92jhc3etug1.png?width=682&format=png&auto=webp&s=e1edbc7c589359ab75abaab08cfe7a208789a0bc

これはたぶん私の側のユーザーエラーの可能性もありますが、少なくとも、私がやっていることが何か間違っている(もしくは機能の設定を誤っている)なら教えてください:

  • M4 Max(コア数が最も多いバージョン)、統一メモリ64GB
  • 提供(サービング)に oMLX 0.3.5dev1 バージョンを使用、gemma 4bit it 26-a4b(200kコンテキスト)
  • モデル実行のための OpenCode ハーネス - いまのところカスタム指示はなし

一貫して、LLMが言われた通りに動いてくれません。例えば:

  • ずっと考え続けているのが見えない。opencodeでは「high」バリアントにしていて thinkingBudget は 8092 トークンに設定しています。さらに oMLX 側でもチャットテンプレート、thinking budget を使って「それを強制」しているのですが、それでもいつも考えません。なぜか、特定のツール呼び出しを行うと言った後で止まるのに、そのツール呼び出しをしないこともあります。これは私が使っている qwen の reasoning parser の結果なのかどうか分かりませんか? oMLX を使っている人がいたら、どの reasoning_parser を使っているか教えてください。
  • もう1つのランダムな質問ですが――私は自分のハードウェアでこれを動かしていて、たくさんの人が自分の環境でより多く回しているのを見かけます。ところが、彼らはコンテキストがより少ない(私は200kを使っています)せいか、トークン生成速度がかなり速いです。理由はそれですか?それとも別に私が何か間違ったことをしているのでしょうか?
  • 繰り返しループに入ります。デフォルトの repetition penalty を使っていますが、ときどき単にひどいです(これは oMLX v0.3.3 のときで、もしかするとその後パッチが当たっているのかもしれません)。これのスクリーンショットも添付します:

https://preview.redd.it/9eu29tuiftug1.png?width=1996&format=png&auto=webp&s=5c3b6d85be35fb8c087c878b3add29377d5ce048

(ファイル名は伏せています - 私は、機密のファイル名やその他の余計なものを一切入れずに gemma-4 の会話をopusにリプレイさせました。笑)

以上が私の経験です。明らかに何か間違ったことをしているのか、それとも単に期待を落とす必要があるケースなのか教えてください。私は、このサイズのモデルに対してSOTA級の期待は持てないのは分かっていますが、自分の設定がキャリブレーション不足なのかどうかは分かりません。――ただ、この Gemma 4 リリースに関するかなりの期待・盛り上がりがあったので、以前のモデルの一部(GPT-OSS 20B/Qwen 3 Next/Qwen 3 coder)での私の体験よりも、このモデルはツールを確実に呼び出せるものだと思っていました。例えば gpt 20b のバージョンは「ツールを呼び出します」と言ってから止まってしまうことがありましたが、qwen モデルの方がまだ良かったです。

なので、これがキャリブレーションの問題なのか/opencodeでこのモデルにうまく機能する適切なシステムプロンプトを持っていないのか/設定のどこかがおかしいのか、よく分かりません。

submitted by /u/DarthLoki79
[link] [comments]