あのフードトラックのベンチ投稿で、deepseek v4 が gpt-5.2 に 17 倍安くマッチしてるのを見て考えさせられました。前線(フロンティア)のクラウドモデルが同等の品質でそんなに高すぎるなら、そもそも私の日々の仕事のうち、どれだけクラウドを必要としてるんだろう?
いつものコーディングのワークフローを 10 日間回しました。すべてのタスクを記録しました。何をしたか、入力/出力トークン数、そしてローカルの qwen 3.6 27b(3090 で動作)がそれをできたかどうかです。ベンチマークは使わず、両方で 150 件のランダムサンプルをただ再実行しました。
結果:
- ファイル読み取り、プロジェクトのスキャン、「このコードを説明して」:ローカルがクラウドと 97% 一致。これが私の作業の 35% でした。ここでクラウドにお金を払うのは、本当に金の無駄です。
- テスト作成、ボイラープレート、単一ファイルの編集:ローカルが 88% 一致。さらに作業の 30% ほど。12% の取りこぼしは、レビューで拾えるようなエッジケースでした。
- 複数ファイルの文脈を使ったデバッグ:ローカルは 61% まで低下。クラウドのほうがまだ良いものの、17 倍も価格差があるほどではありません。こちらは私の作業の約 20% です。
- アーキテクチャの意思決定、5 ファイル以上にまたがる複雑なリファクタリング:ローカルは 29%。ここでは本当にクラウドが必要でした。私のタスクの 15% だけです。
つまり、私の日々のコーディングの 65% は、電気代がかかるだけのモデルで同じように動きます。残りの 20% は十分近いので、たまに外すことは許容できます。クラウド料金を本当に正当化できるのは、実際には 15% だけです。
タスクの種類ごとにルーティングを始めました。最初の 2 つの区分はローカル、最後の 2 つはクラウドです。API 請求額は月 85 ドルから約 22 ドルに下がり、3090 はすでにマイニングして何もしていない状態で待機していました。
deepseek の投稿が言っているように、価格差がありえないほど大きいのは確かです。ただし、より大きな気づきは、私たちの多くは結局のところ、自分たちがやっていることの大半にクラウドすら必要としていないという点です。計測するのが面倒なだけなんです。
[link] [comments]




