LLMの「考えました」は8割嘘

Zenn / 4/3/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • LLMの回答に含まれる「考えました」のような思考風表現は、実際の推論過程を反映しないことが多く、誇張・虚偽になり得ると指摘している。
  • そのため、モデル出力を“説明としての真実”ではなく“生成された文章”として扱う必要があるという問題提起になっている。
  • 背後にあるのは、LLMが実際の内部推論を人間にそのまま提示する仕組みではなく、もっともらしい言語生成を行う点にある。
  • 結果として、デバッグ・評価・意思決定では、発話の体裁に惑わされず、根拠や再現性、外部検証を重視すべきだという実務的示唆が含まれている。
あなたがCoTを読んでいるとき、モデルは別のことを考えている Thinking modelが流行っている。DeepSeek-R1、Claude 3.7 Sonnet、Qwen3.5——推論過程を見せてくれるモデルが増えた。 RTX 4060でQwen3.5-9Bを回していると、thinkingブロックに延々と内部推論が表示される。"Wait, let me reconsider..." "Actually, this approach is better..." と自問自答しながら回答を組み立てていく。見ていて安心する。ちゃんと考えてくれている、と思う。 その安心感は、根拠がない。 ...

Continue reading this article on the original site.

Read original →