| これはたぶん私の側のユーザーエラーの可能性もありますが、少なくとも、私がやっていることが何か間違っている(もしくは機能の設定を誤っている)なら教えてください:
一貫して、LLMが言われた通りに動いてくれません。例えば:
(ファイル名は伏せています - 私は、機密のファイル名やその他の余計なものを一切入れずに gemma-4 の会話をopusにリプレイさせました。笑) 以上が私の経験です。明らかに何か間違ったことをしているのか、それとも単に期待を落とす必要があるケースなのか教えてください。私は、このサイズのモデルに対してSOTA級の期待は持てないのは分かっていますが、自分の設定がキャリブレーション不足なのかどうかは分かりません。――ただ、この Gemma 4 リリースに関するかなりの期待・盛り上がりがあったので、以前のモデルの一部(GPT-OSS 20B/Qwen 3 Next/Qwen 3 coder)での私の体験よりも、このモデルはツールを確実に呼び出せるものだと思っていました。例えば gpt 20b のバージョンは「ツールを呼び出します」と言ってから止まってしまうことがありましたが、qwen モデルの方がまだ良かったです。 なので、これがキャリブレーションの問題なのか/opencodeでこのモデルにうまく機能する適切なシステムプロンプトを持っていないのか/設定のどこかがおかしいのか、よく分かりません。 [link] [comments] |
M4 Max(64GBユニファイド)でoMLX + OpenCode上のGemma 4 26Bを動かしたが、能力の設定を誤っている/キャリブレーションを間違えているのか?
Reddit r/LocalLLaMA / 2026/4/13
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- Redditのユーザーが、M4 Max(64GBユニファイドメモリ)環境で、oMLX 0.3.5dev1上にOpenCodeのハーネスを使ってGemma 4 26B(4-bit、200kコンテキスト)を実行する際に、能力(capabilities)の設定を誤っている、または理解を誤っているのではないかと質問している。
- ユーザーは、高いthinkingBudget設定にもかかわらずモデルが「考える」ことに失敗することがあると報告している。また、ツール呼び出しをアナウンスした後にそれを実行せず停止することがあり、推論パーサーやチャットテンプレート/ツール呼び出しの取り扱いに関する疑問が挙がっている。
- 同様のハードウェアで動かしている他のユーザーと比べてトークン生成が遅いことも観察しており、原因としてははるかに大きい200kコンテキストが主因ではないかと推測している。
- さらに、デフォルトのrepetition penaltyのままで繰り返しループが発生するのを見ており、この挙動が後続のoMLXバージョンで改善またはパッチ適用されたのかを気にしている。
- 会話の中心は、oMLX/Opencodeの正しい設定(例:reasoning_parserの選択や関連するランタイムパラメータ)について助言を求めるトラブルシューティング・スレッドである。



