ここ数日、RTX 3090でLM Studioを使っていろいろなモデルや量子化(クオント)を試していたんですが、どれも毎回ツール呼び出しで必ずグリッチが起きます。止まらない無限ループです。とはいえ、モデル自体はすごく気に入りました。とにかく速いんです。1秒あたり80〜110トークンくらい出ます。高いコンテキストでも、それでも非常に高い速度を維持しています。
qwen3.5 moeモデルではツール呼び出しでとても成功していたのですが、qwen系で困っていたのは、win11とLM Studioのどこかにバグのようなものがあって、プロンプトキャッシングがうまく動かないことです。会話が30〜40kコンテキストに到達すると、プロンプトの処理があまりにも遅くなってしまって、使って作業する意欲が完全に削がれます。
Gemma 4は別物です。ollama cppでのサポートがかなり良く、キャッシングも欠陥なく動作します。flash attention + q4 quantsを使っています。これなら、RTX 3090で文字通り最大260kコンテキストまで押し上げられます! しかもモデルのパフォーマンスも同じくらい良いです。
ようやく自分に合うものを見つけました。unslothのq3k_mクオントで、temperatureは1、top k samplingは40です。さらに、私が使っているカスタムのシステムプロンプトも役に立っているのかもしれません。
これをopencodeで過去6時間テストしているのですが、もう止められません。失敗しないんです。Open Code自体の全体構造をちゃんと説明してくれましたし、リポジトリ全体で2.7GBもあるような巨大さにもかかわらず、あちこちを辿って全部読んだり、特定の仕組みがどう動くかを説明したりするのに問題がありません。最終的には自分でもopen codeの自作版を作るつもりです。
正直、claude sonnetレベルの品質に感じます。関数呼び出しは一度も失敗しません。これはエージェント的なコーディング/ツール呼び出し/open clawや検索エンジン向けで、たぶん最良のモデルかもしれません。
私はperplexityよりもこれを好みます。LM Studioでプラグインを通して検索エンジンに接続すると、perplexityやGoogleよりもはるかに良い結果が出ます。
VRAMの消費については重いです。おそらく16GBでも動くとは思いますが、ツール呼び出しやエージェントでは無理です。開始するだけでも10〜15kコンテキストは必要です。私のGPUは24GBのメモリなので、Q4_0のKVであれば、フルのコンテキストでも問題なく動かせます。
[link] [comments]




