LLMを実際の開発作業に使い始めると、コストの会話があっという間にややこしくなるのを感じていました。単にAPIの支出だけではありません。リトライ、長いコンテキスト、バックグラウンドでの評価、ツール呼び出し、埋め込み、そして、使用量が増えて初めて“無害そうに見える”小さなワークフロー上の意思決定がすべて積み重なってきます。
一部のチームではローカルモデルが明白な答えに見えるものの、実際には「自分で動かしてお金を節約するだけ」よりも、もっと微妙です。APIコストを、ハードウェア、セットアップ時間、モデルルーティングの判断、そしてタスクによっては信頼性の低下と交換することになります。コーディングや反復的な社内ワークフローなら、ローカルはとても良く見えます。ですが、他のものはいつもそうとは限りません。
AIコスト全体を最適化しようとする開発チームと一緒に仕事をしている中で、これをかなりの頻度で見かけています。場合によっては、最大の節約は、退屈で繰り返し可能な部分には小型モデルやローカルモデルを使い、難しい呼び出しには高価なモデルを残す、という形でした。この流れの中でClaude CodeとWozcodeも使っていて、モデルの選び方だけでなく、ワークフロー設計にもより注意を払うようになりました。請求額の多くは、「あるモデルが高すぎるから」というより、まずいルーティングやのんびりしたデフォルト設定によるところが大きいように思えます。
ローカルモデルは、本当に総コストを意味のある形で下げていますか?それとも、主にプライバシーとコントロールを提供しているだけで、節約効果は人が言うほど明確ではないのでしょうか?
[リンク] [コメント]




