ユーザーの知らないうちにプロンプトが長くなっていく(そして利益率を壊す)

Dev.to / 2026/5/13

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageIndustry & Market Moves

要点

  • この記事は、会話履歴の追加、RAGのコンテキスト投入、長くなったシステム/フォーマット指示などによって、LLMの「プロンプトインフレ」が静かにトークン使用量を増やしていくと警告しています。
  • ユーザー価値はプロンプトサイズに比例しては伸びないのに、コストは想定より急増し得るため、大規模運用で利益率が削られます。
  • 月次の総使用量だけを見るのは誤解を招くとして、コストを「ユーザーあたり」「機能あたり」で追跡し、コストの原因となる例外を特定すべきだと述べています。
  • 著者は、LLMeterを(プロキシなしの)オープンソースとして作り、ユーザーID単位でLLMコストを可視化できるようにしたことを紹介し、過大なコンテキスト履歴は切り詰める必要があるとしています。
  • 結論として、プロンプトの長さが日初めから変わらない前提をやめ、継続的に計測して管理することが重要だと強調しています。

最近LLMの課金パターンを見ているのですが、ほぼすべてのチームに忍び寄る「無言の殺し屋」がいます。それがプロンプトの膨張(prompt inflation)です。

最初にAI機能を作るとき、プロンプトは引き締まっています。たとえばシステム指示が500トークン、ユーザーの問い合わせが100トークンです。計算はきれいに見えます。「これなら1回あたりのコストは1セントの端数分くらいで済むはずだ」とチームに伝えます。

3か月後には話が変わります。

ボットを「賢くする」ために、誰かが会話履歴を追加しました。さらに別の開発者が、モデルが一度幻覚を起こしたので大規模なRAGコンテキストの塊を入れました。プロダクトはフォーマット指示を求めたので、システムプロンプトは2,000語のエッセイになっています。

すると、突然ベースの要求が8kトークンになります。

一番まずいのは、ユーザー価値がプロンプトサイズに対して線形に増えないことです。しかしOpenAIの請求は確実に増えます。スケールさせていると、最初は$0.005で見積もった機能なのに、ある瞬間から1リクエストあたり$0.05+を払うことになります。

プロバイダのダッシュボードで月額合計を眺めるだけだと、「利用が増えているだけ」に見えます。「成長はいいことだ」と思うでしょう。ですがStripeの支払いが来て、マージンが消えたことに気づくまでです。

総支出だけでなく、ユーザーあたりのコストと機能あたりのコストを追跡する必要があります。特定のユーザーが異常にコストを押し上げているなら、たぶん巨大なコンテキストウィンドウを蓄積してしまっており、切り詰め(truncate)する必要があります。

ちなみに、私はまさにこの問題に遭遇したので、LLMeter(https://llmeter.org?utm_source=devto&utm_medium=article&utm_campaign=2026-04-21-prompt-inflation-margin-killer)を作りました。これはオープンソースで、プロキシなしで、この手のものを追跡できる方法です。コストをユーザーIDレベルまで紐づけることで、「誰が10kトークンの履歴を引きずっているのか」を実際に見える化できます。

結局、プロンプトが最初の1日目と同じサイズだと決めつけるのをやめましょう。追跡してください。