Qwen 3.6：順守（アドヒアランス）は悪化？

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

ユーザーは、vLLM + Open WebUI のRAGセットアップにおいて、Qwen 3.5からQwen 3.6のFP8バリアントに切り替えたところ、指示への追従性とツールの挙動が悪化したと報告している。
モデルはツールに関して明らかに「おしゃべり」になっているようで、ツール関連の推論トークンが数十から数百へ増えている（およそ2〜3倍）。
ユーザーは、特定の指示に対してモデルが以前よりも信頼性低く従っていること、またシステムプロンプトをそれまでよりも重み付け/尊重していないように見えることを観察している。
網羅的な回答を出すように促した場合でも、最終的な応答は明確に短くなっており、出力フォーマットや生成ダイナミクスの変化が示唆される。
ユーザーは、チャットテンプレート、またはvLLMが新しい重みを扱う方法が原因ではないかと疑っており、モデルを入れ替えただけで同様の退行が他の人にも起きているかどうかを尋ねている。

推奨されている生成設定を同じまま使って、Qwen 3.5 を 3.6 バリアント（FP8、RTX 6000 Pro）に入れ替えました。私の構成は、RAG セットアップで vLLM（v0.19.0）+ Open WebUI（v0.8.12）を使い、モデルがいくつかのドキュメント取得ツールにアクセスできるものです。

いくつか初期テストを行った後（シングルターンで、まだインタリーブされた推論を無効化することは試していません）、いくつか重要な変化に気づきました：

- 3.6 はツールに対してかなり「おしゃべり」です。推論トークンが数十から数百へと跳ね上がっています（2倍〜3倍の増加）。

- 3.5 と比べて、特定の指示に従うのが難しいようです。

- システムプロンプトを無視するか、重み付けがかなり小さくなっているように見えます。

- 余すところなく網羅的な回答を求められているにもかかわらず、最終的な応答は大幅に短くなっています。

- アーキテクチャが同じであるにもかかわらず、チャットテンプレート、または vLLM が新しい重みを扱う方法に潜在的な問題があるのではないかと疑っています。同じような問題を見ている人はいますか？

EDIT:

- Qwen3.5-35B-A3B と Qwen3.6-35B-A3B を入れ替えた以外は、何も変更していません。

- 以前うまくいっていたことが、今はあまりうまくいきません。

- 追加の推論は、ツールがある場合に顕著です。

submitted by /u/tkon3
[link] [comments]