タイトルにあるとおりです。具体的には 26b MoE。
私はこのモデルが好きになりたいと思っていました。かなり。Qwen 3.5 27b の代わりになるかもしれないと思ったんです。アップデートのたびに何度も戻ってきて試してみて、「改善しているはずだ」と期待し続けています。
私は llama.cpp で unsloth UD_Q4_K_XL を動かしています。main の最新コミットを使っています。—jinja についても知っています。interleaved thinking テンプレートについても知っています。低量子化 KV キャッシュは使っていません。これは、私が今までに動かした最初のモデルではありません。
毎回、テストすると同じことが分かります。スキルを使ったり Web を検索したりするときに、かなり“やる気がない”モデルです。質問すると、デフォルトでは、Web 検索を一切せずに自分の知識だけで答えます。Web 検索を明確に頼むと、今度は自分を下げて(言い方は変ですが)、_単一_ の Web 検索を実行し、検索結果のスニペットを素早く読み取ってから、内部で「このスニペットと自分の内蔵知識があれば答えるのに十分。これ以上は検索する必要がない」と判断します。
これは、次の場合でもです:
- 検索と取得のためのツールを渡している。検索ツールの説明には「これらのスニペットから答えないで、fetch を使え」とあり、fetch ツールには「この検索ツールで得たページを取得するためにこれを使え」とあります。
- 「徹底的に検索して」「深掘りして」「怠けるな」などと明確に指示している。
- コンテキストに「searching-the-web」という押しの強いスキルを入れており、上のことをすべて行うよう明確に指示している。
- 「適用できる可能性が少しでもあるなら、スキルを使わなければならない」と書かれた押しの強いスキル指示をコンテキストに入れている。
- 「searching-the-web スキルを参照せよ」と明確に伝えている。
Qwen 3.5 は、ほぼ聞いただけで、あなたのために何かを掘り起こす“全クエスト”に行きます。Gemma 4 は、青くなるくらい叫ばないとダメで、それでもたった1回の検索すら、ろくにやる気が出ません。私の唯一の結論は、単に(AI における「want」の意味はさておき)Web を検索したくないだけ、ということです。
もし私が変なら言ってください。うまく動いていて、喉を押さえつけなくても Web で深掘りしてくれるなら、そうだと言ってください。そして、この点で“降参させる”ためにどんな quant/設定を使っているのか、親切に教えてください。
[link] [comments]




