推奨されている生成設定を同じまま使って、Qwen 3.5 を 3.6 バリアント(FP8、RTX 6000 Pro)に入れ替えました。私の構成は、RAG セットアップで vLLM(v0.19.0)+ Open WebUI(v0.8.12)を使い、モデルがいくつかのドキュメント取得ツールにアクセスできるものです。
いくつか初期テストを行った後(シングルターンで、まだインタリーブされた推論を無効化することは試していません)、いくつか重要な変化に気づきました:
- 3.6 はツールに対してかなり「おしゃべり」です。推論トークンが数十から数百へと跳ね上がっています(2倍〜3倍の増加)。
- 3.5 と比べて、特定の指示に従うのが難しいようです。
- システムプロンプトを無視するか、重み付けがかなり小さくなっているように見えます。
- 余すところなく網羅的な回答を求められているにもかかわらず、最終的な応答は大幅に短くなっています。
- アーキテクチャが同じであるにもかかわらず、チャットテンプレート、または vLLM が新しい重みを扱う方法に潜在的な問題があるのではないかと疑っています。同じような問題を見ている人はいますか?
EDIT:
- Qwen3.5-35B-A3B と Qwen3.6-35B-A3B を入れ替えた以外は、何も変更していません。
- 以前うまくいっていたことが、今はあまりうまくいきません。
- 追加の推論は、ツールがある場合に顕著です。
[link] [comments]



