llama.cppサーバー上でDeepSeek 3.2が<think>のオープニングタグを食べてしまう問題？

Reddit r/LocalLLaMA / 2026/4/20

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

記事では、llama-server経由で提供しているDeepSeek V3.2の出力ストリームで、推論は進む一方<strong>開始タグ（<think>）が欠落</strong>するというローカルLLMの不具合が報告されています。
ユーザーは<strong>終了タグ</strong>だけが最後に現れ、推論テキスト自体は通常のように出力されると述べています。
512GBのマシン上で「Unsloth GGUF」とされるDeepSeek V3.2を読み込み、llama-server（-t 32、--flash-attn など）で推論しています。
推論のON/OFF切り替えでも改善せず、特定のGGUFでチャットテンプレートが壊れているのか、あるいは不足しているフラグがあるのかを疑っています。

みなさん。llama-server 経由の新しい DeepSeek V3.2 Unsloth GGUF で奇妙な問題が起きています。モデルは推論を開始するところまではうまくいくのですが、出力ストリーム上の実際の最初の think タグが欠けています。プレーンテキストの推論が表示され、その後、最後に閉じタグが出るだけです。

このため、Open WebUI は思考ブロックを折りたたみません。私は 512GB のマシンを使っていて、コマンドは単に llama-server -m model_name -t 32 --flash-attn on です。推論のオン/オフを切り替えてみましたが、改善しませんでした。

これらの特定の GGUF でチャットテンプレートが壊れているのでしょうか？それともフラグを見落としているだけですか？

提出者 /u/Winter_Engineer2163
[link] [comments]