私はRX 7900 XTXを使っていて、Qwen3.6 27B Q4_K_XLを実行しています。約400のppで、tpsは30秒台です。64k未満のすべての作業は信じられないほど素晴らしく、良い品質のコードを出力してくれます。
しかし、もう少し踏み込んで、わりと複雑なDevOps関連の作業をさせようとしたところ、90k ctxでツール呼び出しが失敗しました。
私はopencodeをハーネスとして使っていて、実行したのはこのllama.cppのコマンドです:
Ilama-server -ctv q8_0 -ctk q8_0 -c 128000 --temp 0.6 --top-p 0.95 --top-k 20 --repeat-penalty 1.0 --fit on.
あなたの経験はどうですか?
[link] [comments]



