LLM を本番に載せると、1 回あたりは数円でも「ユーザー数 × 利用頻度 × 365 日」で月のコストはあっという間に膨らみます。コスト最適化とは、品質を落とさずにこの掛け算を小さくする技術の総称です。本ガイドは、すぐ効く順に キャッシュ・モデルの使い分け・バッチ・コンテキスト圧縮、そしてセルフホスト時の 量子化・蒸留 までを、2026 年時点の事実に沿って整理します。
FIG.1 最適化のレバーは「単価を下げる」「トークンを減らす」「測って回す」の3系統
原則は単純で、まず効果が大きく実装が軽い順に手を付けます。多くのケースで効くのはキャッシュ・モデルの使い分け・コンテキスト圧縮の3点で、本番に乗せたあと月次コストを見ながら段階的に追加していくのが現実的です。
01プロンプトキャッシュ:同じ前置きを使い回す
システムプロンプトやツール定義のように毎回ほぼ同じ長い前置きを送る場合、その部分をプロバイダ側に覚えさせ、2 回目以降は入力トークン費用を大きく割り引く仕組みがプロンプトキャッシュです。エージェントや RAG のように前置きが長い構成ほど効きます。
注意したいのは、割引率や挙動がプロバイダごとに異なることです(料金は変動するので必ず公式で最新を確認してください)。2026 年時点の代表的な傾向は次の通り。




