LLMの「考えました」は8割嘘
Zenn / 4/3/2026
💬 OpinionIdeas & Deep AnalysisModels & Research
Key Points
- LLMの回答に含まれる「考えました」のような思考風表現は、実際の推論過程を反映しないことが多く、誇張・虚偽になり得ると指摘している。
- そのため、モデル出力を“説明としての真実”ではなく“生成された文章”として扱う必要があるという問題提起になっている。
- 背後にあるのは、LLMが実際の内部推論を人間にそのまま提示する仕組みではなく、もっともらしい言語生成を行う点にある。
- 結果として、デバッグ・評価・意思決定では、発話の体裁に惑わされず、根拠や再現性、外部検証を重視すべきだという実務的示唆が含まれている。
あなたがCoTを読んでいるとき、モデルは別のことを考えている
Thinking modelが流行っている。DeepSeek-R1、Claude 3.7 Sonnet、Qwen3.5——推論過程を見せてくれるモデルが増えた。
RTX 4060でQwen3.5-9Bを回していると、thinkingブロックに延々と内部推論が表示される。"Wait, let me reconsider..." "Actually, this approach is better..." と自問自答しながら回答を組み立てていく。見ていて安心する。ちゃんと考えてくれている、と思う。
その安心感は、根拠がない。
...
Continue reading this article on the original site.
Read original →Related Articles
Why I built an AI assistant that doesn't know who you are
Dev.to
DenseNet Paper Walkthrough: All Connected
Towards Data Science

Meta Adaptive Ranking Model: What Instagram Advertisers Gain in 2026 | MKDM
Dev.to
The Facebook insider building content moderation for the AI era
TechCrunch
Qwen3.5 vs Gemma 4: Benchmarks vs real world use?
Reddit r/LocalLLaMA