推論トークンのフォーマット混乱について話せますか？

Reddit r/LocalLLaMA / 2026/4/10

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

共有:

要点

この投稿では、Qwen/DeepSeekの <think>...</think> のような例、Gemmaの <|channel>...</channel|> スタイルなど、さまざまなLLMが「推論トークン」の形式を一貫せずに使っていることを強調している
さらに、区切り文字なしで「thought（思考）」テキストだけを出力するモデルもあるケースがある

Qwen/DeepSeek: <think>...</think>
Gemma: <|channel>...<channel|> 変だけど、まあ確かに。
Gemmaでもう一度、時々: デリミタなしのむき出しの thought

vLLMにはモデルごとに --reasoning-parser フラグが用意されています。これは助けになりますが、基本的にはvLLMのメンテナーがネズミ捕りを永遠に続けることに自発的に付き合ってくれているだけです。さらに、raw出力を何か下流で扱っているなら、モデルごとに自分でパーサーを書いていることになります。

これはチャットテンプレートでも一度やったばかりです。今度またやっています。

これはただのGoogleらしさですか？これを標準化に向けて実際に動いているのを見た人はいますか、それともただノリでやってるだけですか？

投稿者 /u/ahinkle
[link] [comments]