Anthropicが2025年6月15日に“ルール変更”し、エージェント課金の最大の嘘を露呈させた

Dev.to / 2026/5/19

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisIndustry & Market Moves

共有:

要点

Anthropicの2025年6月15日の変更により、Agent SDK（claude -p）経由のプログラム的なClaude利用やOpenClaw/Zed/customスクリプトの実行は、別枠の月次クレジットプールに紐づくようになった。
該当クレジットは繰り越されず、枯渇すると自動化は停止・劣化・または許可した場合のみ通常のAPI課金へフォールバックする。
重要なのは料金の細部ではなく、クレジットが尽きるタイミングが実運用中（ブラウザ作業の途中、リトライワーカー稼働中、監視ポーリング中など）で起こり得ることで、プロダクション障害のモードになる点だ。
記事は、この問題をAnthropic固有ではなく、「サブスク型の無制限に近い体験」と「重いプログラム利用が前提のAPI」が本質的に別物であることを再認識させるものだと述べている。
結果として、プロバイダ側の方針変更でエージェント基盤が止まるなら、実態は“アーキテクチャ”ではなく“割引（一時的な価格条件）”に依存していた可能性があると警鐘を鳴らしている。

Anthropicの6月15日の変更によって、エージェント界隈で多くの人が口に出さないようにしていたあることが、はっきりしました：

あなたのワークフローが、ある提供元が無制限のサブスクリプションのように振る舞うことに依存しているなら、耐久性のあるインフラはありません。あるのは一時的な価格の抜け道です。

これは、AI APIの料金比較のうさぎ穴に入り込んだ末に、r/openclawのスレッドにたどり着いて見つけました：
https://reddit.com/r/openclaw/comments/1tgt1yi/anthropic_is_limiting_openclaw_again_and_honestly/

最初は、ただの一般的な料金への不満に見えました。

違いました。

請求まわりの話として装った、アーキテクチャの投稿でした。

何が6月15日に変わったのか

短く言うと：

Agent SDKを通じたプログラム的なClaudeの利用、claude -p、OpenClaw、Zed、そしてカスタムスクリプトは、今や別の月次クレジット・プールの背後に置かれています。

これらのクレジットは繰り越されません。

尽きると、あなたの自動化は次のいずれかになります：

停止する
劣化する
もしくは、明示的に許可した場合は標準のAPI課金へフォールバックする

これは請求の細部の話のように聞こえますが、実際にそれが実行の途中で起きるところを想像すると別です。

あなたのOpenClawループはブラウザ作業の途中です。
リトライ用のワーカーはまだ稼働中です。
バックグラウンドの監視がポーリングしています。
そしてクレジットがゼロになります。

それは料金の煩わしさではありません。
それは本番障害のパターンです。

真の問題はAnthropicではない

Anthropicは単に、ヘビーなプログラム利用と、消費者向けのサブスクリプションが同じものではないことを、開発者に改めて思い出させた最新の企業にすぎません。

そのスレッドのあるコメントが、まさにこう言っていました：

「これは市場シェアとロックインに向けた、補助金つきのレースです。競争のダイナミクスをできる限り活用しましょう…」

それがすべてです。

多くのエージェントスタックは、AIの料金がやけに柔らかく、寛大で、どこか“本当にそうなの？”と感じるような変な新婚期間の間に作られました。バンドルは曖昧でした。上限はぼんやりしていました。誰もが、ヘビーな自動化はサブスクリプション型の箱の中で永遠に動き続けられるかのように振る舞っていました。

しかし、本格的なワークロードは必ずクォータ計算にぶつかります。

もしそうしたものを見たことがあるなら、すでにパターンをご存じでしょう：

openai api quota exceeded
レートリミットの急な跳ね上がり
トークン/分の上限
リクエスト/分の上限
組織レベルの利用上限
急なトラフィックバースト後のアクセラレーション上限

それは通常のAPI挙動です。

悪役の所業ではありません。

普通のこと。

そして、この教訓はより居心地が悪くなります：

ある提供元のポリシー変更であなたのエージェントスタックが凍結されるなら、そもそも“アーキテクチャ”は本当にありません。
あったのは割引でした。

クレジットが切れたとき最初に壊れるもの

かっこいいデモではありません。

退屈な“つなぎ”です。

エージェントシステムが運用上危険なのはそこです。たいていは、存在を忘れていたバックグラウンドジョブのところで壊れます。

静かなトークンの消費者たち

OpenClawの議論をさらに読んでいると、別の役立つスレッドを見つけました：
https://reddit.com/r/openclaw/comments/1thlo6s/stuff_i_figured_out_after_3_weeks_with_openclaw/

あるユーザーは、くだらない理由で1週目にトークンを使い切ってしまったと認めていました：

ゴミみたいな作業にプレミアムモデルを使っていたのです。

直し方はシンプルでした：

ハートビートのチェックでClaude Opusを使うのをやめる
cronのピングに高価なモデルを使うのをやめる
定型作業をより安いモデルに移す
プレミアムモデルは、本当に推論が必要なタスクにだけ残す

彼らは定型作業をGLM-5.1に切り替え、実際の推論にはClaude Sonnet 4.6を維持したところ、コストが約3分の1にまで下がったと言っています。

これはマイクロ最適化ではありません。

別のアーキテクチャです。

一度それが見えると、もう見ないでいられません。

エージェントの支出のかなりの部分は、Claude OpusやGPT-5、あるいはどんな“プレミアムな推論モデル”も本来必要としないジョブから来ています。

典型的なムダのバケツ：

ブラウザのループ
スクリーンショットのチェック
待機/リトライのサイクル
ヘルスチェック
cronでトリガーされたピング
単純な抽出
低リスクな分類
すでに構造化されたデータの要約

この作業は多くの場合、次に置き換えられます：

より安いクラウドのモデル
ローカルのGemmaモデル
Qwenの派生モデル
Llamaの派生モデル

品質が許すなら、高価な推論モデルは“本当にそれに値する仕事”に集中させておきましょう。

なぜ人々はまだ単一提供元のスタックを作り続けるのか？

簡単だからです。

単一提供元のスタックは、それが機能しなくなるまではきれいに見えます。

それは、机全部を1つの安い延長タップに繋ぐのが単純に見えるのと同じ感覚です。

そして、ある1つのことが壊れたら、全部が真っ暗になります。

本当のトレードオフはこれです：

スタックの設計	得られるもの
単一提供元のサブスクリプションスタック	セットアップの複雑さが最も低い一方で、クォータの変更、ポリシーの変化、そしてプログラム的な利用が分断され始めたときの醜いコスト面での露出が高い
複数提供元にルーティングするスタック	より高いレジリエンス、より良いコスト制御、そしてより簡単なフェイルオーバー。ただし運用の複雑さは増える
ローカル＋クラウドのハイブリッドスタック	より良い制御と、反復作業を安価に処理する手段。難しいタスクはクラウドに確保するが、ローカルのハードウェアとモデル品質面でのトレードオフが必要

単一提供元版は提供元が1つルールを変えるまでは最高に感じます。
その後は、全てが一度に失敗します。

ルーティングはもう任意ではない

ここは、今となっては退屈な話のはずです。

提供元のルーティングとフェイルオーバーは、もはや高度な機能ではありません。これは必須の前提条件です。

OpenRouterの例

OpenRouterはすでに、提供元の順序、フォールバック時の挙動、そしてソートに対応しています。

{
  "model": "openai/gpt-4.1",
  "messages": [{"role": "user", "content": "ping"}],
  "provider": {
    "order": ["anthropic", "openai"],
    "allow_fallbacks": true,
    "sort": "price"
  }
}

LiteLLMルーターの例

LiteLLMは、ルーター単位のフォールバックとロードバランシングを提供します。

from litellm import Router

router = Router(
  model_list=[
    {
      "model_name": "gpt-3.5-turbo",
      "litellm_params": {
        "model": "azure/<your-deployment-name>",
        "api_base": "<your-azure-endpoint>",
        "api_key": "<your-azure-api-key>",
        "rpm": 6
      }
    },
    {
      "model_name": "gpt-4",
      "litellm_params": {
        "model": "azure/gpt-4-ca",
        "api_base": "https://my-endpoint-canada-berri992.openai.azure.com/",
        "api_key": "<your-azure-api-key>",
        "rpm": 6
      }
    }
  ],
  fallbacks=[{"gpt-3.5-turbo": ["gpt-4"]}]
)

OpenAI互換のHTTPのほうが、人々が思っている以上に重要です

これは特に、次のような自動化ツールを使っている場合に当てはまります：

n8n
Make
Zapier
OpenClaw
カスタムの社内ワーカー

これらのシステムの多くは、すでにOpenAI風のAPI形状を前提にしています。

つまり、プロバイダー固有のSDK（奇妙な前提が組み込まれているもの）ではなく、あなたのアプリがOpenAI互換のHTTPを話せるなら、バックエンドの差し替えがかなり簡単になります。

これが、自動化に重心を置くチームにとってStandard Computeが興味深い理由の1つです。Standard Computeは、OpenAI APIのドロップイン置き換えとして機能するため、既存のSDKやHTTPクライアントは通常、最小限の変更で済みます。

これは、あなたの本当の課題がプロンプトの品質ではないときに特に重要です。
価格やクォータが変わるたびに統合を作り直さずに、エージェントを動かし続けること——それが問題の本質です。

エージェントのスタックを構造化するための実用的な方法

これは、ほとんどのチームにとって筋が通っていると思う版です。

1. ジョブごとにモデルを分ける

Claude Sonnet 4.6 や GPT-5 のようなプレミアムモデルは、次に使います：

難しい推論
コーディング
計画立案
曖昧な意思決定
複雑なツール選択

より安価なモデルは、次に使います：

ハートビートの確認
cronのping
抽出（extraction）
分類（classification）
ブラウザ状態の検証
リトライ
構造化された出力の要約

よいルール：

設計レビューで「Claude Opusにこのタスクを割り当てるのは気まずい」と感じるなら、「Claude Opusに割り当てない」でください。

2. 必要になる前にフェイルオーバーを追加する

Anthropic があなたの第一候補のプロバイダーなら、それで構いません。
OpenAI が第一候補のプロバイダーなら、それも構いません。

ただし「第一候補＝唯一」を意味するようにはしないでください。

OpenClawを使っているなら、プロバイダー側の問題をあなた自身のコードと比べてデバッグするときに、基本的な運用の可視性がとても役に立ちます：

openclaw status
openclaw status --all
openclaw status --deep
openclaw gateway status
openclaw logs --follow
openclaw doctor
openclaw health --json

目的はシンプルです：

1つのプロバイダーが、あなたのワークフロー全体を止めることなく劣化（ディグレード）できるようにするべきです。

3. 繰り返し作業を安く保つ

多くのチームは、今でも逆のことをしています。

彼らは、繰り返しの機械的な作業にプレミアムトークンを使い、コストが爆発したり、使用上限（usage caps）が現れたりしてから驚きます。

安い作業は安いままであるべきです。

それは、たとえば：

より小さなホスト型モデル
繰り返しタスクのローカル推論
攻めたルーティングルール
可能ならバッチ処理
バックグラウンドジョブのスロットリング

ここでも、定額制の仕組みが役に立つことがあります。

Standard Computeは、OpenAI互換のAPIの背後で、GPT-5.4、Claude Opus 4.6、Grok 4.20 のような複数のモデルにまたがってルーティングし、バッチ処理と適応的なスロットリングが組み込まれています。自動化を1日中回しているチームにとって、魅力は明白です。トークンごとの監視（定数的な監視）ではなく、毎月のコストが予測可能になるからです。

これは魔法ではありません。
単に、チャットアプリのようにAIを使うのではなく、インフラとしてエージェントを動かしている人たちにより適しただけです。

4. 繰り返しで十分に起きるなら、一部の作業はローカルに保つ

あるOpenClawユーザーは、次のような構成を説明していました：

Mac mini M4 Pro
RTX 5090を2基搭載したリモートPC
ローカルのGemmaモデル
GPTのサブスクリプション
研究ワークロード用の追加マシン

彼らが実際にやっていたことを理解するまで、それは極端に聞こえるかもしれません：

1つのベンダーと1つの課金モデルが、あらゆるワークロードを支えるべきだという前提をやめたのです。

それが、成熟した（大人の）エージェント基盤（agent infrastructure）です。

ハイブリッドな構成はごちゃごちゃしますが、正直です。

シンプルなレジリエンス（耐障害性）のパターン

具体的なものが欲しい場合、これは妥当なベースラインです：

返却形式: {"translated": "翻訳されたHTML"}

TASK_MODEL_MAP = {
    "heartbeat": "cheap-model",
    "classification": "cheap-model",
    "browser_check": "cheap-model",
    "summarization": "mid-model",
    "planning": "premium-model",
    "coding": "premium-model"
}

def pick_model(task_type: str) -> str:
    return TASK_MODEL_MAP.get(task_type, "mid-model")

次に、トランスポート層でプロバイダのフォールバックを追加します。

疑似フロー:

1. 安価なタスクは低コストのモデルへルーティング
2. 難しいタスクはプレミアムモデルへルーティング
3. プロバイダAが失敗したら、プロバイダBで再試行する
4. プレミアム経路が利用できない場合、劣化させるかキューに入れるかを判断する
5. タスクタイプごとに使用量をログに残し、どこで予算が燃えているかを把握する

これは華やかな話ではありません。

また、玩具のエージェントスタックと本番用のスタックの違いでもあります。

本当のAI APIの価格比較はトークン価格ではない

これは開発者がずっとハマり続ける罠です。

彼らはトークン単価を比べてそこで止まります。

人々がよく聞く例:

Claude SonnetのAPI価格はいくらですか？
GPT-5はClaude Opusより安いですか？
どのモデルが、100万トークンあたりのコストが最も低いですか？

それらは良い質問です。

でも、それは重要な質問ではありません。

重要な質問は次のとおりです:

あるプロバイダがポリシーを変更したらどうなりますか？
使用量の急増後にレート制限がさらに厳しくなったらどうなりますか？
あなたのエージェントが価値の低いループでプレミアムトークンを燃やしたらどうなりますか？
自動化が「1つのプロバイダは常に同じ振る舞いをするはずだ」と仮定している場合はどうなりますか？
あなたのコードが変わる前に請求の前提が変わる、日曜の夜はどうなりますか？

答えが「全部が止まる」ですよね、ならばトークンあたりの価格は根本の問題ではありません。

問題はあなたのアーキテクチャです。

私の見解

6月15日の変更は、Anthropicが邪悪だということを証明したわけではありません。

もっと役に立つ何かを証明しました:

本格的なエージェントのワークロードは、寛大なアプリのサブスクリプションのように扱うのではなく、インフラとして設計する必要があります。

つまり:

プロバイダをまたいでルーティングする
タスクごとにモデルを階層化する
安い仕事は安く済ませ続ける
可能な限りOpenAI互換のインターフェースを使う
クォータと価格は変わると仮定する
必要になる前にフォールオーバーを作り込む

それが今のデフォルトです。
イレギュラーではありません。

あなたがn8n、Make、Zapier、OpenClaw、または社内のカスタムワークフローでエージェントを動かしているなら、このマインドセットの転換が最も重要です。

勝ちのセッティングは、一番見栄えのするモデルのデモがあるものではありません。

お気に入りのベンダーが「無理」と言ったときでも動き続けるものです。

この考え方を最もシンプルにしたいなら、Standard Computeを一度見てみる価値があります:
https://standardcompute.com

月額固定の料金、OpenAI互換のAPI、そしてトークンごとの不安がないことは、チャット型サブスクを最初からインフラだとみなしているより、常時稼働の自動化にずっと合っています。

Black Hat USA

AI Business

日本がロボットで米中に勝つための4つの秘策

日経XTECH

BMWの自動化は第4段階へ、「人型ロボは既にクルマ3万台の製造に活用」

日経XTECH

半導体市場、28年にメモリー価格下落で縮小米ガートナー

日経XTECH

GMOあおぞらネット銀が電話サポートを24時間に、「AIオペレーター」を活用

日経XTECH

Anthropicが2025年6月15日に“ルール変更”し、エージェント課金の最大の嘘を露呈させた

要点

何が6月15日に変わったのか

真の問題はAnthropicではない

クレジットが切れたとき最初に壊れるもの

静かなトークンの消費者たち

なぜ人々はまだ単一提供元のスタックを作り続けるのか？

ルーティングはもう任意ではない

OpenRouterの例

LiteLLMルーターの例

OpenAI互換のHTTPのほうが、人々が思っている以上に重要です

エージェントのスタックを構造化するための実用的な方法

1. ジョブごとにモデルを分ける

2. 必要になる前にフェイルオーバーを追加する

3. 繰り返し作業を安く保つ

4. 繰り返しで十分に起きるなら、一部の作業はローカルに保つ

シンプルなレジリエンス（耐障害性）のパターン

本当のAI APIの価格比較はトークン価格ではない

私の見解

関連記事

Black Hat USA

日本がロボットで米中に勝つための4つの秘策

BMWの自動化は第4段階へ、「人型ロボは既にクルマ3万台の製造に活用」

半導体市場、28年にメモリー価格下落で縮小米ガートナー

GMOあおぞらネット銀が電話サポートを24時間に、「AIオペレーター」を活用

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

何が6月15日に変わったのか

真の問題はAnthropicではない

クレジットが切れたとき最初に壊れるもの

静かなトークンの消費者たち

なぜ人々はまだ単一提供元のスタックを作り続けるのか？

ルーティングはもう任意ではない

OpenRouterの例

LiteLLMルーターの例

OpenAI互換のHTTPのほうが、人々が思っている以上に重要です

エージェントのスタックを構造化するための実用的な方法

1. ジョブごとにモデルを分ける

2. 必要になる前にフェイルオーバーを追加する

3. 繰り返し作業を安く保つ

4. 繰り返しで十分に起きるなら、一部の作業はローカルに保つ

シンプルなレジリエンス（耐障害性）のパターン

本当のAI APIの価格比較はトークン価格ではない

私の見解

関連記事

Black Hat USA

日本がロボットで米中に勝つための4つの秘策

BMWの自動化は第4段階へ、「人型ロボは既にクルマ3万台の製造に活用」

半導体市場、28年にメモリー価格下落で縮小 米ガートナー

GMOあおぞらネット銀が電話サポートを24時間に、「AIオペレーター」を活用

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

半導体市場、28年にメモリー価格下落で縮小米ガートナー