Qwen 3.5 122Bは約10万トークンのコンテキストで完全に崩壊する

Reddit r/LocalLLaMA / 2026/3/20

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • ユーザーは、VLLMとolka-fi MXFP4量子化を用いて実行した場合、約10万トークンのコンテキスト長付近でQwen 3.5 122Bが完全に失敗し、突然停止して数ステップ以上の指示に従わなくなると報告しています。
  • 問題は閾値となるコンテキスト長で発生するように見え、長いコンテキスト処理や量子化に関連するバグの可能性を示唆しており、一般的なモデル機能だけの問題ではない可能性があります。
  • 投稿は、27Bモデルでも同様の問題が議論されていたことを指摘しており、この問題が122Bだけでなく複数のモデルに影響を及ぼす可能性を示唆しています。
  • これはユーザー間のディスカッションで、Redditのr/LocalLLaMAのスレッドにリンクされており、現時点で開発者からの公式発表はありません。

他の人も約10万トークンのコンテキストで Qwen 122B が完全に崩れてしまう問題を抱えていますか?

私は olka-fi MXFP4 量子化を用いた VLLM を使っています。

モデルがこの閾値に達すると、突然機能しなくなります。この時点まではエージェントは問題なく機能しますが、それ以上はおそらく1ステップ以上指示に従わなくなります。

昨日、これを27Bについて誰かが言及しているのを見ましたが、今は投稿を見つけられません。122B でも確実に同じ現象が起きています

投稿者 /u/TokenRingAI
[リンク] [コメント]