みなさん。llama-server 経由の新しい DeepSeek V3.2 Unsloth GGUF で奇妙な問題が起きています。モデルは推論を開始するところまではうまくいくのですが、出力ストリーム上の実際の最初の think タグが欠けています。プレーンテキストの推論が表示され、その後、最後に閉じタグが出るだけです。
このため、Open WebUI は思考ブロックを折りたたみません。私は 512GB のマシンを使っていて、コマンドは単に llama-server -m model_name -t 32 --flash-attn on です。推論のオン/オフを切り替えてみましたが、改善しませんでした。
これらの特定の GGUF でチャットテンプレートが壊れているのでしょうか?それともフラグを見落としているだけですか?
[link] [comments]



