Qwen 3.6 27B が長いコンテキスト後にループする問題

Reddit r/LocalLLaMA / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

Redditのユーザーは、Qwen 3.6 27B（高い量子化設定で使用）ではコード作成やテスト実行はできるものの、約10万コンテキストトークンを超えるあたりからループし始めると報告しています。
ユーザーは「やり直して」などでモデルの挙動を中断・再スタートさせようとしましたが、ループは解消されなかったとのことです。
具体的な llama-server の起動コマンド（-c 200000 のような非常に大きいコンテキスト設定や、keep・batch・チェックポイント・ngram推測などのパラメータ）を共有しており、長文推論が原因となっている可能性を示唆しています。
本投稿は、Qwen 3.6 27B の長いコンテキストでのループを防ぐための解決策や回避策をコミュニティに求めています。
報告では、同様の使い方でループ問題が出にくいとされるGemma 31Bとの挙動の違いが述べられています。

ここで「gemma 31B を使っている」と書くと、qwen 27B のほうが良いという回答が返ってきます。そこで pi で gemma 31B Q5 から qwen 27B Q8 に切り替え、だいたいはコードを書いてドキュメントも作れてテストも実行できるのですが、どこかで 100k のコンテキストを超えたあたりから、qwen がループに入ってしまい続けます。何か解決策はありますか？

https://preview.redd.it/o4e1vxkc29zg1.png?width=2575&format=png&auto=webp&s=c6f93e53127b5c8ba798f1c7b503a06172425a0a

https://preview.redd.it/8qriwlrd29zg1.png?width=2747&format=png&auto=webp&s=082cf04774aa7ae77044ff04d5962a2f0606f73a

https://preview.redd.it/xz9lsdde29zg1.png?width=2447&format=png&auto=webp&s=81e4d88a1a0347fc9f6ef743ef612db47557c7b5

壊してみるつもりで、やり直して最初からやってみて、とか言ったのですが、それでもずっとループします。

私の現在のコマンドは:

CUDA_VISIBLE_DEVICES=0,1,2 llama-server -c 200000 -m /mnt/models2/Qwen/3.6/Qwen3.6-27B-UD-Q8_K_XL.gguf --host 0.0.0.0 --jinja -fa on --keep 4096 -b 8192 --spec-type ngram-mod --parallel 1 --ctx-checkpoints 24 --checkpoint-every-n-tokens 8192 --cache-ram 65536

submitted by /u/jacek2023
[link] [comments]