なぜコスト最適化が重要か
LLM プロダクトの本番コストは累積で巨大になります。1 リクエスト数円でも、ユーザー数 × 利用頻度 × 365 日で月数百万〜数億円になりがち。最適化を意識すると 5〜10 倍効率化できます。
1. プロンプトキャッシュ
同じシステムプロンプトを再利用するとき、入力トークン費用を最大 90% 削減できる仕組み。
- Anthropic:cache_control パラメータで明示
- OpenAI:自動キャッシュ(同じ prefix が一定回数ヒット時)
- Google:Context Caching
エージェント運用や RAG のようにシステムプロンプトとツール定義が長いケースで効果絶大。
⚠️ キャッシュ無効化の落とし穴:日時・ユーザー名・セッション ID などの動的要素をプロンプト先頭に混入するとキャッシュがミスヒットし、通常の新規トークン料金が適用されます。対策は「静的プレフィックス → 動的テール」に設計すること。ProjectDiscovery の実例では、作業メモリをメッセージ末尾に移すだけで LLM コストが 59% 削減されました。
2. モデルカスケード
1 アプリで複数モデルを使い分け:
- Light(Mini、Nano、Haiku):分類、ルーティング、簡単な抽出
- Mid(Sonnet、Mistral Large、Gemini Flash):日常業務、要約、翻訳
- Frontier(GPT-5、Claude Opus 4.7):複雑推論、コード生成、エージェント司令塔



