llama.cppサーバー上でDeepSeek 3.2が<think>のオープニングタグを食べてしまう問題?

Reddit r/LocalLLaMA / 2026/4/20

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 記事では、llama-server経由で提供しているDeepSeek V3.2の出力ストリームで、推論は進む一方<strong>開始タグ(<think>)が欠落</strong>するというローカルLLMの不具合が報告されています。
  • ユーザーは<strong>終了タグ</strong>だけが最後に現れ、推論テキスト自体は通常のように出力されると述べています。
  • 512GBのマシン上で「Unsloth GGUF」とされるDeepSeek V3.2を読み込み、llama-server(-t 32、--flash-attn など)で推論しています。
  • 推論のON/OFF切り替えでも改善せず、特定のGGUFでチャットテンプレートが壊れているのか、あるいは不足しているフラグがあるのかを疑っています。

みなさん。llama-server 経由の新しい DeepSeek V3.2 Unsloth GGUF で奇妙な問題が起きています。モデルは推論を開始するところまではうまくいくのですが、出力ストリーム上の実際の最初の think タグが欠けています。プレーンテキストの推論が表示され、その後、最後に閉じタグが出るだけです。

このため、Open WebUI は思考ブロックを折りたたみません。私は 512GB のマシンを使っていて、コマンドは単に llama-server -m model_name -t 32 --flash-attn on です。推論のオン/オフを切り替えてみましたが、改善しませんでした。

これらの特定の GGUF でチャットテンプレートが壊れているのでしょうか?それともフラグを見落としているだけですか?

提出者 /u/Winter_Engineer2163
[link] [comments]