最近LLMの課金パターンを見ているのですが、ほぼすべてのチームに忍び寄る「無言の殺し屋」がいます。それがプロンプトの膨張(prompt inflation)です。
最初にAI機能を作るとき、プロンプトは引き締まっています。たとえばシステム指示が500トークン、ユーザーの問い合わせが100トークンです。計算はきれいに見えます。「これなら1回あたりのコストは1セントの端数分くらいで済むはずだ」とチームに伝えます。
3か月後には話が変わります。
ボットを「賢くする」ために、誰かが会話履歴を追加しました。さらに別の開発者が、モデルが一度幻覚を起こしたので大規模なRAGコンテキストの塊を入れました。プロダクトはフォーマット指示を求めたので、システムプロンプトは2,000語のエッセイになっています。
すると、突然ベースの要求が8kトークンになります。
一番まずいのは、ユーザー価値がプロンプトサイズに対して線形に増えないことです。しかしOpenAIの請求は確実に増えます。スケールさせていると、最初は$0.005で見積もった機能なのに、ある瞬間から1リクエストあたり$0.05+を払うことになります。
プロバイダのダッシュボードで月額合計を眺めるだけだと、「利用が増えているだけ」に見えます。「成長はいいことだ」と思うでしょう。ですがStripeの支払いが来て、マージンが消えたことに気づくまでです。
総支出だけでなく、ユーザーあたりのコストと機能あたりのコストを追跡する必要があります。特定のユーザーが異常にコストを押し上げているなら、たぶん巨大なコンテキストウィンドウを蓄積してしまっており、切り詰め(truncate)する必要があります。
ちなみに、私はまさにこの問題に遭遇したので、LLMeter(https://llmeter.org?utm_source=devto&utm_medium=article&utm_campaign=2026-04-21-prompt-inflation-margin-killer)を作りました。これはオープンソースで、プロキシなしで、この手のものを追跡できる方法です。コストをユーザーIDレベルまで紐づけることで、「誰が10kトークンの履歴を引きずっているのか」を実際に見える化できます。
結局、プロンプトが最初の1日目と同じサイズだと決めつけるのをやめましょう。追跡してください。




