他の人も約10万トークンのコンテキストで Qwen 122B が完全に崩れてしまう問題を抱えていますか?
私は olka-fi MXFP4 量子化を用いた VLLM を使っています。
モデルがこの閾値に達すると、突然機能しなくなります。この時点まではエージェントは問題なく機能しますが、それ以上はおそらく1ステップ以上指示に従わなくなります。
昨日、これを27Bについて誰かが言及しているのを見ましたが、今は投稿を見つけられません。122B でも確実に同じ現象が起きています
[リンク] [コメント]



