定型のコーディングタスクにおけるdeepseek-v3 vs Claude Sonnet — 私の実際の使用数値

Reddit r/LocalLLaMA / 2026/3/26

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は1週間にわたり、同一の50件の定型コーディングタスクに対してdeepseek-v3とClaude Sonnetを実行し、品質・速度・コストを比較した。
  • deepseek-v3は約80%のタスクでSonnetと同等だったが、複数ファイルにまたがるアーキテクチャ判断や複雑なリファクタが絡む残りのケースでは、Sonnetのほうが明確に優れていた。
  • 著者の経験では、キュー待ち時間が少なかったため、deepseek-v3のほうが平均的に速かった。
  • 報告されているトークンコストでは、deepseek-v3はSonnetの約1/8であり、定型の開発作業ではdeepseek-v3のほうが望ましい。
  • 重要な注意点として、deepseek-v3は存在しないインポートを時々“幻覚”することがあり、そのため開発者による追加の検証が必要になる。

1週間にわたって、同じ50のコーディング課題セットで両方のモデルを実行しました。みんながいつも「どのモデルを何に使うべきか」を聞いてくるので、共有しようと思いました。

課題の種類:ファイル読み取り、シンプルなリファクタリング、grepして置換、テスト生成、ドックストリングの執筆、基本的なデバッグ

結果:- 品質:deepseek-v3は、約80%の課題でsonnetに一致しました。sonnetのほうが明らかに優れていた残り20%は、すべてマルチファイルのアーキテクチャ判断と複雑なリファクタリングでした。- 速度:deepseekのほうが平均で速かったです(キュー待ち時間が短い)- コスト:トークンあたりのコストは、だいたいsonnetの1/8程度

私の結論:ルーティンな開発タスクなら、deepseek-v3は本当に十分です。私は、重大な多段階の推論が必要なときだけclaudeに切り替えます。このやり方でここ数週間運用していますが、正直sonnetを全部に使うのを懐かしく感じていません。

注意 — コーディングタスクのみです。創作、分析などは異なるかもしれません。あとdeepseekは、ときどき存在しないimportをでっち上げる(ハルシネーションする)ことがあり、それが少し厄介です。

他にも、同じ条件で比較したデータを持っている人はいますか?ぜひ比べてみたいです。

submitted by /u/PoolInevitable2270
[link] [comments]