1週間にわたって、同じ50のコーディング課題セットで両方のモデルを実行しました。みんながいつも「どのモデルを何に使うべきか」を聞いてくるので、共有しようと思いました。
課題の種類:ファイル読み取り、シンプルなリファクタリング、grepして置換、テスト生成、ドックストリングの執筆、基本的なデバッグ
結果:- 品質:deepseek-v3は、約80%の課題でsonnetに一致しました。sonnetのほうが明らかに優れていた残り20%は、すべてマルチファイルのアーキテクチャ判断と複雑なリファクタリングでした。- 速度:deepseekのほうが平均で速かったです(キュー待ち時間が短い)- コスト:トークンあたりのコストは、だいたいsonnetの1/8程度
私の結論:ルーティンな開発タスクなら、deepseek-v3は本当に十分です。私は、重大な多段階の推論が必要なときだけclaudeに切り替えます。このやり方でここ数週間運用していますが、正直sonnetを全部に使うのを懐かしく感じていません。
注意 — コーディングタスクのみです。創作、分析などは異なるかもしれません。あとdeepseekは、ときどき存在しないimportをでっち上げる(ハルシネーションする)ことがあり、それが少し厄介です。
他にも、同じ条件で比較したデータを持っている人はいますか?ぜひ比べてみたいです。
[link] [comments]