Claude CodeでQwen 3.6 27Bを使うと「やる」と言って止まり、ユーザー返信を待つ(ツール呼び出し失敗は見えない)

Reddit r/LocalLLaMA / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • vLLMでQwen/Qwen3.6-27B-FP8を動かしているユーザーは、Claude Code上でモデルが「何かをする」と予告した後に、ユーザー入力待ちで停止することがしばしばあると報告しています。
  • ユーザーはエラーメッセージや、ツール呼び出しの失敗に相当する明確な挙動が出ないのに期待した処理の完了だけが起きない場面を観察しており、ツール実行が明示的に失敗しているようには見えないと述べています。
  • 場合によっては同様の停止が連続して起こり、さらに「ユーザーが『continue』と言ったので続ける」といった趣旨のコメントまで出るのに、それでも追加のユーザー返信を待つことがあるそうです。
  • 投稿者は、この挙動がモデルの推論上の制約なのか、Claude Code側のプロンプト/ツール連携(ツール呼び出しパーサ等)との不整合なのか、あるいはvLLM設定の問題なのかを問いかけています。
  • OpenCodeでは同じ問題があまり見られないとも言及し、このモデル構成でClaude Codeを確実に動かすための診断や助言を求めています。

このコマンドで vLLM を使って Qwen/Qwen3.6-27B-FP8 を動かしています: vllm serve Qwen/Qwen3.6-27B-FP8 --tensor-parallel-size 4 --gpu-memory-utilization 0.95 --max-num-seqs 8 \ --enable-auto-tool-choice --tool-call-parser qwen3_xml \ --enable-prefix-caching --attention-backend flashinfer

Claude Code ではかなりうまく動きますが、わりと頻繁に「何かをするつもりだ」とアナウンスしてから、そのまま止まってユーザーの応答待ちになります。たとえば:

``` では、残りの編集を続けます。

✻ 48秒かけて生成

```

(ユーザー入力待ち)

エラーメッセージもありませんし、私の見た限りではツール呼び出しが失敗した形跡もありません。ただ、処理が最後まで進まずに終わってしまいます。時々それが連続して何度も起きたり、さらには「The user replied 'continue' - they want me to continue. Let me continue with the remaining edits.」といったコメントまでします(ユーザーのプロンプトが、私に返答を求めて待っている状態)。

これは単にモデルの推論の不足なのでしょうか、Claude Code のプロンプトとモデルの非互換なのでしょうか、それとも設定のエラーなのでしょうか?

OpenCode ではこのようなことは見たことがありませんが、特定のタスクでは CC を好む理由があります。

ありがとうございます。

投稿者 /u/jettoblack
[link] [comments]