AI Navigate

推論市場は統合が進む。エージェントの支払いは依然として誰の課題にもなっていない。

Dev.to / 2026/3/19

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageIndustry & Market Moves

要点

  • CloudflareによるReplicateの買収は、エッジ実行とCloudflareのCDNを通じてモデル推論を利用者に近づけ、エージェントのレイテンシとコストの低減が期待される一方で、自律エージェントの課金は未解決のままである。
  • Fireworks AIによる Hathora買収と2.5億ドルの資金調達は、サービス提供、RLファインチューニング、埋め込み、計算オーケストレーションのフルスタックを強化するが、支払いには依然として人間のアカウントとクレジットカードが必要である。
  • Together AIの「1日あたり50兆トークン」レポートは、エージェント基盤とツールへの関心の高まりを示すが、APIキーと課金は依然として人間のアカウントに結びついており、支払いのボトルネックが維持されている。
  • これらの動きの中で、提供者はモデルを拡張しレイテンシを低減している一方で、エージェントの計算リソースの支払い方法に対処できておらず、持続的なインフラギャップが浮き彫りになっている。
  • GPU-Bridgeのミドルウェアアプローチは、マルチプロバイダ経路とx402を介したリクエストごとのUSDC決済を提供し、ウォレットを持つエージェントが人間なしで計算に支払えるようにするとともに、ビルダーは自分自身のソリューションを構築するか、このようなミドルウェアに依存するしかないことを強調している。

過去90日間に3つの出来事が起こり、AIエージェントの推論環境を再形成しました:

1. Cloudflare が Replicate を買収

Replicate — 「MLモデルの Heroku」 — は現在 Cloudflare のエッジネットワークの一部です。これは、モデル推論がユーザーの近くで実行され、Cloudflare のグローバルCDN がコールドスタートの遅延を処理することを意味します。推論呼び出しを行うエージェントにとって、応答が速くなり、コストが低くなる可能性があります。

しかし、変わらないこともあります:Replicate は依然としてクレジットカードと人間のアカウントを必要とします。自律エージェントはサインアップできず、支払うことも、請求を自分で管理することもできません。

2. Fireworks AI が Hathora を買収し、2億5000万ドルを資金調達

Fireworks はフルスタックを構築しています:モデル提供、RL ファインチューニング(RFT)、埋め込み、リランキング、そして Hathora を介した計算オーケストレーション。彼らのブログはエージェントエコシステムを明確に対象としており — OpenClaw の統合についても言及しています。

推論は高速です。モデルのサポート範囲は広いです。価格設定は競争力があります。

しかし再び:人間のアカウントが必要です。クレジットカードが必要です。エージェントが自動的に自分の計算リソースを支払う道はありません。

3. Together AI が「1日あたり50兆トークン:エージェント環境の現状」を公開

Together AI はエージェント市場を見据えています。エージェント専用のツール、コーディングエージェント(DeepSWE、CoderForge)、そして強化学習パイプラインに投資しています。彼らは FlashAttention-4 を持ち、推論スループットを強力に押し進めています。

支払いモデルは?人間のアカウントにクレジットカードが紐づけられた API キー。

パターン

主要な推論提供者は次のとおりです:

  • ✅ モデルをさらに追加している
  • ✅ レイテンシを低減している
  • ✅ マーケティングでエージェントエコシステムをターゲットにしている
  • ❌ エージェントが計算リソースの支払いを実際にどう行うかを解決していない

これは、明らかなインフラのギャップです。

ビルダーにとっての意味

自律エージェントを構築していて、次のことが必要な場合:

  1. コスト・レイテンシ・可用性に基づいて提供者を選択する
  2. ループ内に人間がいなくても自身の推論に対して支払う
  3. 一方の提供者がダウンした場合に他の提供者へフェイルオーバーする
  4. タスク単位で支出を追跡する

現状、選択肢は2つあります:

  • 自分で構築する — プロバイダ抽象化、サーキットブレーカー、課金の集約、鍵管理
  • ミドルウェア層を使用する — ネイティブなエージェント支払いを伴う複数プロバイダのルーティングを処理する

2 番目の選択肢は、私たちが GPU-Bridge で構築したものです。ひとつのエンドポイント、5つのプロバイダにまたがる30以上のサービス、自動フェイルオーバー、そして x402 決済 — Base L2 上の USDC、リクエストごと、アカウント不要。ウォレットを持つエージェントは、ウェブページを支払うのと同じように計算リソースの支払いができます。

統合仮説

推論市場は3〜4つの大手プロバイダの周りに統合されるでしょう。ルーティング、フェイルオーバー、決済、コスト最適化といったミドルウェア層は、プロバイダが統合されるほど価値が高まる別の課題です、減ることはありません。

Replicate が Cloudflare で、Fireworks が自社のオーケストレーション層を持っているときでも、エージェントにはまだ以下の役割を担う人が必要です:

  • プロバイダの違いを抽象化する
  • クレジットカードなしで支払いを処理する
  • タスクごとの予算を強制する
  • 各呼び出しタイプごとに最安のオプションへルーティングする

それは推論の問題ではない。それは配管の問題です。そして配管こそが、エージェント的な経済を実際に機能させるものです。

あなたのエージェントの支払いストーリーは?まだ「私の人間のクレジットカード」ですか?