DeepSeek V4の大幅な安さで検証したら、クラウドに投げている作業の大半がローカルで足りていた

Reddit r/LocalLLaMA / 2026/5/6

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • Redditユーザーは、DeepSeek V4がより高価なクラウドのモデルに対して約17倍安く同等品質だという話をきっかけに、自分のコーディングでクラウドが本当に必要な割合を計測した。
  • 10日間の通常ワークフローで作業を記録し、サンプル150件のタスクについて、3090上で動かすローカルのQwen 3.6 27Bがクラウドにどれだけ近いかを比較した(厳密なベンチマークは未使用)。
  • 結果として、ローカルは多くの一般的なタスクでクラウドとほぼ同等で、ファイル読み取り/プロジェクトスキャン/コード説明は97%、テスト作成や定型、単一ファイル編集は88%だった。
  • マルチファイル文脈が必要なデバッグや大規模リファクタのような難しいタスクでは性能が下がり(61%や29%)、クラウドがより妥当になるのは全体の約15%だと結論づけた。
  • タスクの種類ごとにローカルとクラウドへ振り分けたことで、月額API費用を85ドルから約22ドルに削減できたため、多くの作業はローカルで十分に進められる可能性が示された。

あのフードトラックのベンチ投稿で、deepseek v4 が gpt-5.2 に 17 倍安くマッチしてるのを見て考えさせられました。前線(フロンティア)のクラウドモデルが同等の品質でそんなに高すぎるなら、そもそも私の日々の仕事のうち、どれだけクラウドを必要としてるんだろう?

いつものコーディングのワークフローを 10 日間回しました。すべてのタスクを記録しました。何をしたか、入力/出力トークン数、そしてローカルの qwen 3.6 27b(3090 で動作)がそれをできたかどうかです。ベンチマークは使わず、両方で 150 件のランダムサンプルをただ再実行しました。

結果:

- ファイル読み取り、プロジェクトのスキャン、「このコードを説明して」:ローカルがクラウドと 97% 一致。これが私の作業の 35% でした。ここでクラウドにお金を払うのは、本当に金の無駄です。

- テスト作成、ボイラープレート、単一ファイルの編集:ローカルが 88% 一致。さらに作業の 30% ほど。12% の取りこぼしは、レビューで拾えるようなエッジケースでした。

- 複数ファイルの文脈を使ったデバッグ:ローカルは 61% まで低下。クラウドのほうがまだ良いものの、17 倍も価格差があるほどではありません。こちらは私の作業の約 20% です。

- アーキテクチャの意思決定、5 ファイル以上にまたがる複雑なリファクタリング:ローカルは 29%。ここでは本当にクラウドが必要でした。私のタスクの 15% だけです。

つまり、私の日々のコーディングの 65% は、電気代がかかるだけのモデルで同じように動きます。残りの 20% は十分近いので、たまに外すことは許容できます。クラウド料金を本当に正当化できるのは、実際には 15% だけです。

タスクの種類ごとにルーティングを始めました。最初の 2 つの区分はローカル、最後の 2 つはクラウドです。API 請求額は月 85 ドルから約 22 ドルに下がり、3090 はすでにマイニングして何もしていない状態で待機していました。

deepseek の投稿が言っているように、価格差がありえないほど大きいのは確かです。ただし、より大きな気づきは、私たちの多くは結局のところ、自分たちがやっていることの大半にクラウドすら必要としていないという点です。計測するのが面倒なだけなんです。

submitted by /u/spencer_kw
[link] [comments]