アプリにAIパワーの機能を追加するたびに、私がプロンプト税と呼ぶ「見えないコスト」にサインしていることになります。
APIの請求額ではありません(それも本当にあります)。問題は、モデルが変わり、入力のバリエーションが増え、イレギュラー(エッジケース)が増殖する中で、プロンプトを動かし続けるための継続的な保守負担です。
分解して説明します。
The Visible Cost
プロンプトを書きます。テストします。動きます。出荷します。APIのコストは1回あたり$0.002。以上です。
それが、ほとんどのチームが予算化している内容です。
The Hidden Tax
1. Drift Maintenance
モデルがアップデートされます。GPT-4はGPT-4 Turboとは挙動が違い、GPT-4oとも違います。先月、きれいなJSONを返してくれていたプロンプトが、今やmarkdownでラップされ、解説付きのJSONを返してくるようになるのです。
税:モデルのアップデートのたびに、誰かがプロンプトを再テストしなければなりません。プロダクションにプロンプトが15個あるなら、モデル変更のたびに手作業の回帰チェックが15回発生します。
2. Input Variance
英語の商品の説明ならプロンプトは完璧に動きます。ところがユーザーがドイツ語のものを投稿してきます。あるいは4,000トークンのものです。あるいは3語しかないものです。
税:入力のバリデーション、トランケーション(切り詰め)ロジック、フォールバック処理が必要になります。「シンプルなプロンプト」には、今や周辺の前処理が40行も付いて回ることになります。
3. Output Parsing
モデルは、必ずしも期待どおりの出力を返しません。前置きを付けることがあります。あるフィールドをスキップすることがあります。また、null\を文字列の"null"\として返すこともあります。
税:出力のバリデーション、リトライのロジック、場合によっては修復ループが必要になります。各パーサは、プロンプトごとに出力の期待値が違うため、カスタムになります。
4. Latency Budgets
あなたのプロンプトは平均で800msかかります。ですがP99は4秒です。UIにはローディング状態、タイムアウト、フォールバックが必要です。ユーザー体験は、うまく段階的に劣化(グレースフルにフォールバック)できなければなりません。
税:AI呼び出しのたびに、タイムアウト、フォールバック経路、エラーメッセージが必要になります。つまりAI呼び出しがなければ存在しない3つのものが、各機能につき発生するのです。
5. Evaluation Debt
あなたのプロンプトがまだ動いていると、どうやって分かりますか?「クラッシュしない」ではありません。実際に良い出力を生成しているかどうかです。評価セット(evalセット)が必要です。期待される出力が分かっている既知の入力を用意し、変更のたびに実行します。
税:評価セットの構築と維持は、プロンプトに対するテストの同等物です。多くのチームはそれを省略し、その結果、品質が静かに劣化している理由に気づけないことがあります。
A Real Example
私は、顧客のフィードバックを3つの箇条書きに要約する機能を作りました。シンプルなプロンプト、シンプルな出力です。
ですが「シンプルな」機能が実際に必要としたものは、以下のとおりです。
| コンポーネント | 行数 |
|---|---|
| プロンプト | 12 |
| 入力バリデーション + トランケーション | 35 |
| 出力パース + バリデーション | 28 |
| バックオフ付きリトライロジック | 22 |
| タイムアウト + フォールバック経路 | 18 |
| 評価テストスイート | 45 |
| 合計 | 160 |
プロンプトはコードの7%でした。税は残りの93%です。
How to Minimize the Tax
1. プロンプトをAPIのように扱う。 入力、出力、エラーケースを最初に定義します。プロンプトを書く前に、1ページ分の仕様書を書いてください。
2. 早い段階でプロンプトのテストハーネスを作る。 初日から5つの評価ケースを用意することで、30日目のデバッグに要する50時間を節約できます。
3. モデルのバージョンを固定する。 自動アップグレードしないでください。新しいバージョンは意図的にテストしてから切り替えます。
4. プロンプトだけでなく「ラッパー」を予算化する。 工数見積もりでは、プロンプト作業を5倍にしてください。これが実際の実装コストです。
5. デフォルトは決定論的なコードにする。 正規表現、ルックアップテーブル、ルールエンジンで解けるなら、それで解決してください。AIは、本当に柔軟性が必要なタスクにだけ使います。
The Bottom Line
AI機能が高いのは、APIにお金がかかるからではありません。すべてのプロンプトが、非決定論的なシステムとの小さな契約であり、契約には強制力が必要だからです。
次のAIパワーの機能を追加する前に、こう問いかけてください。「この先2年間、プロンプト税を払う覚悟はあるか?」
答えが「はい」になることもあります。でも、サインする前に値段を知っておくべきです。
あなたの経験はどうですか? AI機能で、想定外の保守コストに直面したことはありますか? 具体的な例をぜひ聞かせてください。




