Qwen3.6 27Bは128kコンテキストで90k付近になると苦戦しているようだ

Reddit r/LocalLLaMA / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • Redditの投稿者は、RX 7900 XTXでQwen3.6 27B(GGUFのQ4_K_XL)を使い、64k以下のプロンプトではコーディング性能が非常に良いと報告しています。
  • しかし、devops関連の複雑なタスクでツール呼び出しが必要になるケースで、128kコンテキスト枠の中の約90kまでコンテキストを伸ばすと、ツール呼び出しがうまく機能しないとされています。
  • 投稿者はllama.cpp経由で128000のコンテキスト長と特定のサンプリング設定(temp 0.6、top-p 0.95など)を用いて実行し、他の人の経験を尋ねています。
  • この投稿は公式ベンチマークやリリースではなく、長いコンテキスト時の挙動や限界に関するトラブルシューティング/経験共有が中心です。
  • 総じて、逸話ベースではありますが、非常に高いコンテキスト長で長文劣化やツール呼び出しの不安定さが起きている可能性が示唆されています。

私はRX 7900 XTXを使っていて、Qwen3.6 27B Q4_K_XLを実行しています。約400のppで、tpsは30秒台です。64k未満のすべての作業は信じられないほど素晴らしく、良い品質のコードを出力してくれます。

しかし、もう少し踏み込んで、わりと複雑なDevOps関連の作業をさせようとしたところ、90k ctxでツール呼び出しが失敗しました。

私はopencodeをハーネスとして使っていて、実行したのはこのllama.cppのコマンドです:

Ilama-server -ctv q8_0 -ctk q8_0 -c 128000 --temp 0.6 --top-p 0.95 --top-k 20 --repeat-penalty 1.0 --fit on.

あなたの経験はどうですか?

submitted by /u/dodistyo
[link] [comments]