Claude Codeの請求額をBYOKプロキシで20ドル未満に抑えた話(そして学んだトークン経済学)

Dev.to / 2026/4/21

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

要点

  • 著者は、モデルや品質を変えたり、ダウングレードしたりせずに、Claude Codeの月額請求を2023年3月の$312.40から4月は20ドル未満まで大幅に引き下げました。
  • コスト削減の手法は、クライアントとapi.anthropic.comの間に置く、Anthropic互換のBYOK(bring-your-own-key)プロキシです。
  • 移行はSDK設定の1行変更だけで済み(baseURLをhttps://aiusage.ai/v1に設定)、手間が小さいことが示されています。
  • この記事では、主な論点がトークン経済であり、Anthropicの公開価格は実質的にベイエリア水準の開発者コストを前提にしている可能性があると指摘しています。
  • 著者はセルフホスティングやマルチプロバイダー・ゲートウェイといった代替案を試したものの、ツール呼び出しの挙動が崩れたり、規模を上げると十分に安くならなかった理由も説明しています。

TL;DR

  • 3月のClaude Codeの請求額は$312.40でした。4月は$20未満になる見込みです。
  • モデルを切り替えたり、セルフホストしたり、品質をダウングレードしたりはしていません。
  • コツは、アンソスピック(Anthropic)互換の薄いBYOK(bring-your-own-key:自前鍵)プロキシで、あなたのクライアントとapi.anthropic.comの間に挟むことです。
  • SDKの変更は1行だけ:baseURL: "https://aiusage.ai/v1"。移行はそれだけです。
  • ツールが欲しいならaiusage.aiです。計算(数式)、アーキテクチャ、そしてClaudeのトークン経済の奇妙なところで私が学んだことを知りたいなら、読み進めてください。

正直に言うと、誰も話していない問題

私は毎日、Claude Codeを使っています。Claude Codeはリポジトリ規模の編集向け、カスタムエージェントにはAnthropic SDKを直接使い、Cursor経由ではエディタネイティブなリファクタリングに、長時間走るエージェント的なタスクにはClineを使っています。ヘビーなスプリントでは、Claude Codeをエージェントモードで1日6〜10時間動かします。

3月の請求書:

Anthropic Inc.      $312.40

これは自慢ではありません。問題です。私が尊敬する多くの開発者たち――バンガロール、ラホール、マニラ、ラゴス、カイロにいる友人やコントリビューター――にとって、月300ドルはツール代というより家賃の支払いです。$312は₹26,000、PKR 87,000、₱17,500、NGN 475,000。Anthropicの公開価格は暗黙にベイエリアの給与水準のユーザーを前提にしています。とはいえ世界の開発コミュニティは、とにかくClaudeの品質が価値あるので、やりたいことを自腹で進めています。

ここに緊張関係があります。そして私は、それを「そうではない」と見せかけるのに疲れました。

そこで週末に、請求額を大幅に削りながら、実際のClaudeの出力品質を維持できるか検証しました。結論:できます。私が学んだこと――行き止まり、実際のアーキテクチャ、そして自分でも確かめられる証拠――をすべて紹介します。

行き止まり(週末を無駄にしないで)

ちゃんと動く答えの前に、私が試してやめた4つのこと:

1.「ローカルでLlama 3.3 70Bをそのまま動かすだけ」

私はローカルモデルが大好きです。分類やルーティングのために、自分のマシンでLlama 3.3 70Bを動かしています。ですが、エージェントによるツール呼び出しループのClaudeの代替としては、まだ足りません。Claude Codeは、Claudeのツール利用ループ向けに本当にチューニングされています。モデルを入れ替えると、ツール呼び出しの連鎖がズレます――ときには微妙に、ときには壊滅的に――そしてエージェントが挙動を誤ります。実コードベースでの、Opus級の長文コンテキスト推論は、まだ別格です。さらに、まともなスループットのためのGPUコスト(A100/H100のオンデマンド)は1〜3ドル/時間。適切な稼働率で回すなら、安くなりません。

ローカルは特定のワークロードには最高です。ただしClaudeのそのままの代替にはなりません。

2. OpenRouter / マルチプロバイダーゲートウェイ

OpenRouterは柔軟性が高く、GPT-4をClaudeに、LlamaをDeepSeekに、といった切り替えを1つのAPIの中で行えます。ですが、ClaudeをOpenRouter経由で通すと、OpenRouterの上乗せ(マークアップ)をAnthropicのラックレートに加えて支払うことになります。節約しているのではなく、オプショナリティを買っているだけです。これはそれ自体が正当な価値提案ですが、今回の話では違います。

3. プロンプトキャッシュと、攻めたコンテキスト削減

Anthropicのプロンプトキャッシュは本当に効きます。繰り返されるシステムプロンプトなら、入力トークンが2〜3倍減ります。もし使っていないなら、今日から有効化してください。とはいえ、私の請求はそれでも月$200+でした。キャッシュは最適化であって、革命ではありません。

4. Opus/SonnetからHaikuへダウングレード

Haikuは安いです。でも同じモデルではありません。Claude Codeのエージェントループや、簡単ではない推論において、Haikuはツール引数を幻覚させたり、微妙なコンテキストを見落としたりします。支払う金額は減りますが、より悪いコードを出荷することになります。フリーミールではなく、別のランチです。

実際に効くもの:薄いBYOKプロキシ

私の中で決定的に状況を変えた洞察はこれです:公開されている1トークンあたりのレートを、そのまま払う必要はない。実際のユーザーに対して実トークンを償却できる計算レイヤー経由でルーティングすればいいのです。

アーキテクチャは抽象化するとこうです:

┌─────────────────────┐      ┌────────────────────┐      ┌────────────────────┐
│   あなたのクライアント │ ───> │   BYOKプロキシ       │ ───> │   api.anthropic    │
│   (Claude Code,     │      │   (鍵を暗号化し、    │      │                    │
│    Cursor, SDK、     │      │    認証し、          │      │   (実際の          │
│    Cline, Aider)    │      │    使用量を計測する) │      │    Anthropic)      │
└─────────────────────┘      └────────────────────┘      └────────────────────┘

重要な設計上の性質は4つ:

  1. あなたは自分のAnthropic APIキーを保持します。 プロキシ上でAES-256-GCMにより保存時暗号化されます。いつでもローテーションまたは削除できます。
  2. プロキシはAnthropic互換です。 同じ/v1/messagesの形、同じストリーミングSSE形式、同じツール利用ブロック、同じビジョンです。既存のクライアントコードは変更不要です。
  3. 節約は裏側の計算レイヤーで起きます。 実装の一部は独自ですが、外部から検証可能です。
  4. あなた自身のAnthropicダッシュボードに削減が反映されます。 これが正直さのチェックです。節約は「こちらが主張するためのもの」ではありません。Anthropicのコンソールで減っていく数字としてあなたが確認できるものです。

コード変更(Node / TypeScript)

Anthropic SDKを直接使う場合:

// Before
import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
});

// After — one line
const client = new Anthropic({
  apiKey: process.env.AIUSAGE_TOKEN,
  baseURL: "https://aiusage.ai/v1",
});

返却形式: {"translated": "翻訳されたHTML"}// それ以外は同一
const msg = await client.messages.create({
  model: "claude-sonnet-4-5",
  max_tokens: 1024,
  messages: [{ role: "user", content: "hi" }],
});

コード変更 — Python

# Before
from anthropic import Anthropic
client = Anthropic(api_key=os.environ["ANTHROPIC_API_KEY"])

# After — 1行
from anthropic import Anthropic
client = Anthropic(
    api_key=os.environ["AIUSAGE_TOKEN"],
    base_url="https://aiusage.ai/v1",
)

# streaming, tool-use, vision — すべて変更なし
with client.messages.stream(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "hi"}],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)

Claude Code / Cursor / Cline のインストール

標準の Anthropic 環境変数を読み取るクライアント向けに:

# aiusage.ai にサインアップして、Anthropic キーを貼り付け、パックを購入してトークンを入手。
# そして:

export ANTHROPIC_BASE_URL="https://aiusage.ai/v1"
export ANTHROPIC_API_KEY="aiu_xxxxxxxxxxxxxxxx"

# Claude Code, Cursor, Cline, Aider, Continue, OpenClaw —
# 何でも ANTHROPIC_BASE_URL を読めばこれを拾います。

以上です。再ビルドも、移行も、設定ファイルの棚卸し(監査)も不要です。クライアントはプロキシに話していることを認識しません。プロキシの /v1/messages の公開APIは、バイト単位で Anthropic と互換です。

重要な数字

こちらが、私自身のアカウントでの「3月 → 4月」の実際の before/after です:

指標 3月(直) 4月(プロキシ)
Claude Code の時間 ~180 ~180
総 API 呼び出し回数 ~12,400 ~12,400
出力トークン ~8.2M ~8.2M
Anthropic の請求額 $312.40 ~$16
aiusage の支出 $0 $50 パック(+従量課金)
合計 $312.40 ~$66

補足:私の 平均 月は軽めです(~60 時間の Claude Code)。平均的な月だと、$25 のクレジットパックで合計およそ $15 に収まります。負荷が高い月は追加入金します。クレジットは期限切れにならないので、完全に需要主導です。

重要な数字:同等の作業負荷で請求額が約20倍減り、出力品質も同一。

これは、他人の投稿では信じられない類の数字で、私自身の Anthropic ダッシュボードで見て初めて納得できました。あなたも同じように思うでしょう。

使い方が偏っても罰しない価格設定

これは重要なのに、誰も話していません。開発ツールのサブスクリプションは、毎月の負荷が平坦である前提です。現実の開発作業は波があります。ローンチ中は重く、計画中は静かで、移行中は重く、8月は静かです。

aiusage はクレジットパックを販売しています:

  • $10 パック → 15 回のヘビー実行
  • $25 パック → 50 回
  • $50 パック → 120 回

サブスクではありません。クレジットは期限切れになりません。1回買って、実際の利用に合わせた何か月分かにわたって使い切ります。

バンガロールやラゴスの開発者が、自分の USD 建てのコストを払っている場合、使い切れていない $20/月 のサブスクは、$20 を燃やしているのと同じです。利用が変動する人にとって、パックははるかに現実的な構造です。

Claude のトークン経済が実際にどう見えるか(事前に知らなかった部分)

こちらが、私が最も驚いた点です。プロキシのログから、私のトラフィックそのままを引いています:

Claude Code のトークンの大部分は「考えている」わけではありません。整形(フォーマット)に使われています。 あなたが編集を依頼したファイルを再現する。編集に使うために、ソースファイル全体をそのまま返して、単一行の差分に落とし込む。プロンプトをそのまま応答に言い直す。コードだけでよかったのに、長い markdown の説明を出す。

1,000 回の実際の Claude Code を見ると、分布は「モデルが高コストで難しい問題を懸命に推論している」ではありません。むしろ「モデルが、すでにディスクにある内容を高コストで打ち直している」です。

返却形式: {"translated": "翻訳されたHTML"}

自分のログからの具体例です。400行のファイルに対する3語だけの編集依頼を出したところ、モデルが編集を反映した全文ファイルを返したため、約12,000の出力トークンが燃えました。理由は12トークンでした。出力は、400行の「markdownで囲われたコード」でした。あなたは再タイピングのラックレートを支払っています。

このパターンが見えてくると、プロキシ+計算レイヤーの経済性が不思議に見えなくなります。コスト削減は魔法ではありません。テンプレ化されたコンテンツをタイプさせるために高級モデルを払うことと、それをやらないことの差です。Claudeは推論が非常に得意で、あなたがそれに支払っているのはまさにそこです。さらに、大きな構造化された出力を「打ち出す」ことにも対応しており、それに対しては払いすぎです。

現時点ではバックエンドの完全な仕組みはクローズにしておきますが、上記だけで、節約が本当に起きていて、回線上の圧縮トリックではない理由がわかるはずです。

Honesty check: when NOT to use this

期待外れになってしまうなら、登録してがっかりするより、登録しないでほしいです。BYOKプロキシは次の場合には使わないでください:

  • エンタープライズのコンプライアンス要件がある。 SecOpsチームが、コードとAnthropicの間のあらゆるホップを監査する必要があるなら、サードパーティのプロキシは審査を通らない可能性があります。Anthropicへの直送にし、すべてをVPC経由でルーティングしてください。
  • すでに直接の利用が<$20/月。 乗り換えても節約は数セント程度です。5分のインストールに見合いません。
  • Anthropic専用のエンタープライズ機能に依存している(PIIのレダクションエンドポイント、専用キャパシティ、プロビジョンドスループット)。これらはAnthropicへの直送のみです。

それ以外のすべての人へ――趣味の人、インディー開発者、初期段階のスタートアップ、学習用エージェント、Claude Codeのヘビーユーザーで自己負担している人、強いドルコストの通貨地域の人たち――これは「無料のお金」の修正です。

Getting started

  1. aiusage.ai にアクセス
  2. マジックリンクで登録(パスワードなし)
  3. AnthropicのAPIキーを貼り付け(保管時に暗号化、ログには絶対記録せず、いつでも削除可能)
  4. $10のパックを購入――15回分。実際のワークロードで動作確認するのに十分
  5. インストーラを実行するか、上で示したとおりにANTHROPIC_BASE_URLを手動で設定
  6. Claude Code / Cursor / SDKをこれまでと同じように使用

最初の1時間でお金が節約できないなら、その理由を知りたいです。ここに返信するか、DMしてください。

Closing thought

私はaiusage.aiを作りました。自分が大好きで、リスペクトしている開発者のために、あるツールの価格が彼らを締め出していくのを見ているのに疲れたからです。いまネット上では、バンガロール、ラホール、マニラ、ラゴス、イスタンブール、サンパウロ――この世界各地から、グローバルな開発コミュニティが最高レベルのエージェント系の仕事をしています。彼らは、サイドプロジェクトを出すために家賃相当の価格を払うべきではありません。

もしこの投稿があなたの月200ドルを節約できたなら、それはその役目を果たしています。

Links:

コメント欄の質問にはお答えします。バックエンドは公開せずに、できる限り全部答えます。