このコマンドで vLLM を使って Qwen/Qwen3.6-27B-FP8 を動かしています: vllm serve Qwen/Qwen3.6-27B-FP8 --tensor-parallel-size 4 --gpu-memory-utilization 0.95 --max-num-seqs 8 \ --enable-auto-tool-choice --tool-call-parser qwen3_xml \ --enable-prefix-caching --attention-backend flashinfer
Claude Code ではかなりうまく動きますが、わりと頻繁に「何かをするつもりだ」とアナウンスしてから、そのまま止まってユーザーの応答待ちになります。たとえば:
``` では、残りの編集を続けます。
✻ 48秒かけて生成
```
(ユーザー入力待ち)
エラーメッセージもありませんし、私の見た限りではツール呼び出しが失敗した形跡もありません。ただ、処理が最後まで進まずに終わってしまいます。時々それが連続して何度も起きたり、さらには「The user replied 'continue' - they want me to continue. Let me continue with the remaining edits.」といったコメントまでします(ユーザーのプロンプトが、私に返答を求めて待っている状態)。
これは単にモデルの推論の不足なのでしょうか、Claude Code のプロンプトとモデルの非互換なのでしょうか、それとも設定のエラーなのでしょうか?
OpenCode ではこのようなことは見たことがありませんが、特定のタスクでは CC を好む理由があります。
ありがとうございます。
[link] [comments]




