DeepSeek V4 Proで「知能密度」が低下したとの指摘

Reddit r/LocalLLaMA / 2026/4/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この議論では、DeepSeek V4 Proは非思考モードでもDeepSeek V3.2より多くのトークンを使用しており、「知能密度」が低下していると主張されています。
  • V4 Pro(1.6T)はV3.2(0.67T)より大きいものの、トークン使用量の増加から効率は改善していないようだと述べられています。
  • GPT-5.4やGPT-5.5と比べると差はさらに大きく、同等の性能を得るのにDeepSeekは約10倍のトークンが必要だと報告されています。
  • トークン処理速度(TPS)が同程度だと仮定すると、同じタスクの完了にDeepSeek V4 Proは約10倍の時間がかかる可能性があると推測しています。
  • 全体として、スケールによって推論の効率が最適化されるという期待に疑問を投げ、計算/トークン効率が新モデルで悪化したと論じています。
Decreased Intelligence Density in DeepSeek V4 Pro

V3.2 の論文では、次のように述べていました:

第二に、トークン効率は依然として課題です。DeepSeek-V3.2 は通常、Gemini 3.0-Pro のようなモデルと同等の出力品質を得るために、より長い生成経路(つまり、より多くのトークン)を必要とします。今後の研究では、推論チェーンの知能密度を最適化して効率を改善することに注力します。

しかし、V4 Pro では状況が悪化しているように見えます。思考(non-thinking)モードでさえ V3.2 よりも大幅に多くのトークンを使用しており、V4 Pro(1.6T)は V3.2(0.67T)のおよそ 2.5 倍です。これは、モデルの知能密度が改善ではなく低下していることを示唆しています!

それを GPT-5.4GPT-5.5 と比較すると、そのギャップはさらに大きくなります。DeepSeek は、同等の性能を得るために約 10 倍多くのトークンを必要としているようです。同じ TPS だと仮定すると、DeepSeek V4 Pro が同じタスクを完了するまでに必要な時間は、およそ 10 倍長くなるということになります。

submitted by /u/Mindless_Pain1860
[link] [comments]