なぜコスト最適化が重要か
LLM プロダクトの本番コストは累積で巨大になります。1 リクエスト数円でも、ユーザー数 × 利用頻度 × 365 日で月数百万〜数億円になりがち。最適化を意識すると 5〜10 倍効率化できます。
1. プロンプトキャッシュ
同じシステムプロンプトを再利用するとき、入力トークン費用を最大 90% 削減できる仕組み。
- Anthropic:cache_control パラメータで明示
- OpenAI:自動キャッシュ(同じ prefix が一定回数ヒット時)
- Google:Context Caching
エージェント運用や RAG のようにシステムプロンプトとツール定義が長いケースで効果絶大。
2. モデルカスケード
1 アプリで複数モデルを使い分け:
- Light(Mini、Nano、Haiku):分類、ルーティング、簡単な抽出
- Mid(Sonnet、Mistral Large、Gemini Flash):日常業務、要約、翻訳
- Frontier(GPT-5、Claude Opus 4.7):複雑推論、コード生成、エージェント司令塔
Light で 80%、Mid で 15%、Frontier で 5% を捌く構成だと、フロンティア単体運用比でコスト 1/5〜1/10 に。
カスケードの実装
- 軽量モデルで「これは複雑な質問か」を判定
- 簡単 → 軽量モデルで完結
- 複雑 → Mid に escalate、それでも難しければ Frontier




