なぜAIエージェントはまだ買い物ができないのか

Dev.to / 2026/5/7

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIndustry & Market Moves

要点

  • 現在の「AIエージェント」の多くは実質的にツール付きのチャットボットに近く、決済・本人確認・判断の根拠提示など現実の要件を自律的に満たすのが難しいと述べている。
  • 問題の本質は構造的で、ウェブの決済・アイデンティティ・信頼に関する仕組みは“人がブラウザで操作する”前提で設計されており、エージェントが独自に金を動かす想定ではないという主張だ。
  • Coinbaseのx402、OKXのAPP、0G Labsの検証可能なストレージとTEE(Trusted Execution Environment)に裏付けられた推論、AnthropicによるMCPエコシステムの普及推進など、不足していた基盤要素がようやく公開提供され始めている点を挙げている。
  • 「本物のエージェント」に必要な要素として、プログラム可能なウォレット、携帯可能なアイデンティティ/評判、HTTP層での動的課金などのチェックリストを示し、信頼・セキュリティ面の要件にも触れている。

x402、OKX APP、ERC-3009、TEEに裏打ちされた推論、そして自律的なインターネット・スタックに欠けていたピースを巡る実働ツアー。

今日の「AIエージェント」のほとんどは、実際にはツール付きのチャットボットにすぎません。

しかし、エージェントが独立してお金を支払う必要が出たり、有料リソースにアクセスしたり、本人確認を行ったり、判断を正当化したりする瞬間に、現在のWebスタックは崩れ始めます。

現代のWebにおけるあらゆる支払い・本人確認・信頼のプリミティブは、人間がブラウザでボタンをクリックすることを前提に設計されていました。

エージェントはモデルに組み込まれていませんでした。

私は過去6か月、AIエージェントを作り込んできましたが、すぐにこのことが明らかになりました。多くのエージェントは、人間のインフラが周りでくっつけられていない限り、オープンなインターネット上で実際に有用なことを実行できません。

彼らはできません:

  • 自律的にAPIに支払う
  • そのリソースにアクセスしてよいことを証明する
  • リクエスト時に動的に課金される
  • 携帯可能なアイデンティティと評判を持ち運ぶ
  • どんな判断を、なぜ行ったかを証明する
  • 機密性の高いビジネスロジックをモデル提供者から保護する

問題は構造的です。

朗報は、欠けていたピースがようやく公開の場で提供され始めており、複数のチームがそれぞれ独立に互換性のあるスタックの部品を構築していることです。

Coinbaseはx402を出荷しています。
OKXはAPPを出荷しています。
0G Labsは検証可能なストレージと、TEEに裏打ちされた推論を出荷しています。
AnthropicはMCPエコシステムをメインストリームへ押し進めました。

初めて、これらの仕組みが現実の何かへと組み上がり始めています。

この記事では次のことを扱います:

  • 今日エージェントに欠けているもの
  • そのギャップを埋めるプロトコル
  • 検証可能なレシートとTEEに裏打ちされた判断が重要な理由
  • それらをすべてつなぎ合わせた実際の実装

実際のエージェントが本当に必要とするもの

「AIエージェント」という言葉を根本にまで削ぎ落とすと、要件はかなり明確になります。

自律システムには:

1. ウォレット

プログラム的に動かせる本物の資金。

Stripeの顧客IDではありません。
人間が所有するクレジットカードでもありません。
手動で更新されるAPIキーでもありません。

本物のウォレットです。

理想的にはガスレスです。なぜなら、すべてのエージェントにトランザクション手数料のためのETH管理まで強制すると、運用上すぐに痛みが出るからです。

2. アイデンティティ

他のシステムは次を知る必要があります:

  • このエージェントが誰か
  • それを運用しているのは誰か
  • どんな権限を持っているか
  • どんな評判(reputation)を携えているか

アイデンティティがなければ、あなたのAPIを呼び出すエージェントはただの匿名リクエストにすぎません。

次を適用できません:

  • 信頼スコアリング
  • レート制限
  • 不正のヒューリスティック
  • 権限(permissions)
  • レピュテーション・システム

をエージェントのレベルで。

3. HTTP層での動的な課金

現代のWebフローはだいたい次のように見えます:

request
→ blocked
→ create account
→ verify email
→ add payment method
→ generate API key
→ retry request

このフローは自律ソフトウェアでは完全に破綻します。

エージェントにはこれに近いものが必要です:

request resource
→ server says "this costs $0.01"
→ agent evaluates
→ pays
→ receives resource

登録フローはありません。
ダッシュボードもありません。
オフライン(out-of-band)での課金もありません。

支払いの交渉は、リクエスト/レスポンスのサイクルの中で直接行われなければなりません。

4. ポータブルなメモリ

今日の多くのエージェント・フレームワークは、メモリをプラットフォーム自身が管理するベクターデータベースに保存しています。

それは、妙な所有権の問題を生みます。

エージェントはできません:

  • メモリをどこか別の場所へ移す
  • 自分が何を知っているかを証明する
  • メモリを選択的に開示する
  • 機密性の高いメモリをモデル提供者からプライベートに保つ

これらは未来の要件ではありません。

それらは、どんな真面目なソフトウェア・システムでも期待する基本的な所有権の保証です。

5. 防御できる判断

この部分はほぼ誰も話していません。

エージェントが:

  • 返金を承認する
  • 支払いをブロックする
  • 顧客を拒否する
  • リードを受け入れる
  • お金を使う

という判断をした場合、いずれ誰かが次を求めることになります:

"なぜエージェントはその判断をしたの?"

今のところ、多くのシステムはそれに答えられません。

"LLMがそう決めた" は、まともな監査証跡ではありません。

ギャップを埋めるプロトコル

これらのどれも、まだ1つの統一されたスタックとしては存在していません。

しかし、欠けているプリミティブのほとんどは、少なくとも1つずつは動作する実装が既にあります。

x402:リソースアクセス時に支払う

HTTP 402ステータスコード(「Payment Required」)は1989年から存在しており、基本的に何十年も使われずに放置されてきました。

Coinbaseが2025年にx402として復活させました。

フローはシンプルです:

Agent
  ↓
GET /resource
  ↓
402 Payment Required
  ↓
sign payment authorization
  ↓
payment submitted
  ↓
resource unlocked

サーバーは次を返します:

  • 価格
  • 受け付けられた資産
  • 受取人アドレス
  • ネットワーク
  • 決済要件

エージェントは支払いの許可(authorization)を署名し、それを返します。

リソースはすぐにアンロックされます。

登録フローはありません。
APIキー生成もありません。
人間の介入もありません。

Cloudflareは、自社の「pay per crawl」の取り組みのもとで、AIクローラ向けにこのモデルのバージョンを出荷しました。

より小さなサービスも、次を公開し始めています:

  • 有料API
  • オラクルのエンドポイント
  • ダウンロード可能なアセット
  • 推論(inference)のエンドポイント

そしてそれらを、x402互換のペイウォール経由で提供しています。

ERC-3009:その下にあるガスレス支払いプリミティブ

x402とOKX APPはいずれも、ERC-3009に大きく依存しています。

ERC-3009は、ほとんどのガスレスUSDC支払いの土台となる署名規格です。

オンチェーンでトランザクションを直接送信する代わりに、エージェントは許可の「支払いの伝票(permission slip)」に署名します:

"この締切期限までに、私のウォレットからこの加盟店へ最大$0.01のUSDCを移動することを許可します。"

別のシステムが、そのトランザクションを送信して、エージェントのガス手数料を支払います。

これが重要なのは、エージェントがETHを保有する必要がなくなるからです。

エージェントが必要なのはUSDCだけです。

これは、驚くほど重要な使い勝手の改善です。

OKX APP:x402モデルを拡張する

OKXは、自社のプロトコルバリアントであるAPP(Agent Payment Protocol)を出荷しました。

配線レベル(wire level)では、APPはx402と非常に似ています:

  • 同じEIP-712の型付き署名
  • 同じERC-3009の決済モデル
  • 同じリクエスト/レスポンスの支払いフロー

しかしAPPは、いくつか重要な拡張を追加します。

遅延集約(Deferred aggregation)

それぞれの小さな支払いを毎回個別にオンチェーンで決済する代わりに、エージェントは多数の小さな支払いをまとめて処理できます。

例:

100 API呼び出し
→ 100のオフチェーン許可
→ 1回のオンチェーン決済

これは、高頻度のエージェント処理のワークロードで重要になります。

セッションベースの課金

APPは、事前に確保したセッション予算(prepaid session budgets)の考え方も導入します。

例:

エージェントが$5を前払い
→ サーバーが時間経過に応じて利用分を差し引く
→ 長時間のワークフローが完了する

これは次にとって重要です:

  • 動画生成
  • 深掘りのリサーチ
  • 複数ステップのワークフロー
  • 自律的なブラウジング・セッション

仕様は既に存在します。
SDKの対応はまだ初期段階です。

返却形式: {"translated": "翻訳されたHTML"}

エージェントのアイデンティティ: ERC-8004

エージェントのためのアイデンティティは、まだ未成熟です。

ERC-8004は、それを解決しようとする初期の試みの1つです。

基本的な考え方:

  • エージェントがオンチェーンのアイデンティティを取得する
  • アイデンティティにはクレーム(主張)が含まれる
  • 他のシステムは、そのクレームをやり取りの前に検査できる

エージェントは最終的に、次を公開できる可能性があります:

  • オペレーターのアイデンティティ
  • 能力
  • 権限
  • 評判
  • 認証

現時点では、ERC-8004に依存しているプロダクション基盤はほとんどありません。

しかし、根本的に解こうとしている問題は実在します。

実際に欠けているレイヤー: 検証可能性

支払いだけでは不十分です。

加えて、次も必要です:

  • 検証可能なレシート
  • 検証可能な意思決定

ここで0Gスタックが面白くなります。

0G Storage + 0G Chainによる検証可能なレシート

あるエージェントがデータを$0.10で購入するとします。

通常の支払いシステムでは、得られるのは:

  • トランザクションハッシュ
  • 支払いの確認

しかし、それでは足りません。

さらに欲しいのは:

  • 実際に提供された正確なペイロード
  • その後に改変されていないことの証明
  • それに対する永続的な暗号学的参照

0G Storageがコンテンツ層を扱います。

レシート、またはペイロードは、分散化されたコンテンツアドレス可能ストレージにアップロードされます。

そしてルートハッシュを返します。

そのルートハッシュを、次に0G Chainにアンカーします。

これでトランザクションには3層の証跡ができます:

1. ベースのトランザクション
   → お金が移動したことを証明する

2. 0G Storageのレシート
   → どのコンテンツが提供されたかを証明する

3. 0G Chainへのアンカー
   → そのコンテンツが後から改変されていないことを証明する

第三者は、すべてのステップを独立して検証できます。

マーチャント(販売者)を信頼する必要はありません。

TEE-backed推論による検証可能な意思決定

この部分は、人々が過小評価しているところだと思います。

エージェントはますますポリシーの意思決定を行うようになります。

例えば:

  • この返金は承認すべきか?
  • このリクエストはポリシーに違反していないか?
  • この支払いはブロックすべきか?
  • この顧客はリスクが高いか?
  • この取引を受け入れるべきか?

今日では、これらのプロンプトは通常そのまま:

  • OpenAI
  • Anthropic
  • Google
  • その他の中央集権的な推論提供者

に送られます。

つまり提供者は理論上、次を見られることになります:

  • 返金ポリシー
  • 不正のヒューリスティック
  • 価格ルール
  • 機密性の高いビジネスロジック
  • 社内のコンプライアンスに関するワークフロー

これは、非常に早い段階で深刻な問題になります。

TEEが実際に変えること

0G Computeは、TEE(Trusted Execution Environment: 信頼実行環境)内で推論を実行します。

TEEを、ハードウェア的に隔離された安全なメモリだと考えてください。

ワークロードは、CPU自体によって保護された暗号化エンクレーブ(隔離領域)内で実行されます。

インフラのオペレーターでさえ次を検査できません:

  • プロンプト
  • モデル入力
  • 出力
  • ビジネスロジック

その後、システムは次を返します:

  • 結果
  • どのコードが実際に実行されたかを示す、ハードウェアによるアテステーション(証明)

これにより、非常に重要なものが生まれます:

暗号によって防御できる意思決定

例:

マーチャントが返金ポリシーを定義する
→ エージェントがTEE内で返金リクエストを評価する
→ 簽名された意思決定が返される
→ マーチャントのポリシーは漏れない

$0.10の電子書籍購入に対しては、おそらくやり過ぎです。

しかし:

  • 医療データ
  • 金融システム
  • エンタープライズの自動化
  • コンプライアンスのワークフロー
  • 取引(トレーディング)システム

では、非常に重要になります。

実際の実装: Coal

ここ数か月、私はCoalを作っています。

Coalは、Base + 0G上で動作する自律型ソフトウェア向けの支払いプラットフォームです。

スタックについて抽象的に語る代わりに、具体的な実装を紹介します。

Coalは5つのことを行います。

1. エージェントが発見できるマーチャントのカタログをホストする

マーチャントのカタログは0G Storage上に存在します。

エージェントは、次なしで製品を発見できます:

  • APIキー
  • ダッシュボード
  • 中央集権的なマーケットプレイス

2. x402とOKX APPの両方に対応

同じ/verifyエンドポイントで次を受け付けます:

  • x402-v1
  • app-v2

サーバーは対応プロトコルを告知し、エージェントは対応している方を選びます。

3. BaseのUSDCで決済する

支払いはBase上のUSDCで決済されます。

オペレーターのウォレットがトランザクションを中継するため、エージェントはETHを用意する必要がありません。

一般的な確認時間は約2秒です。

4. 0G上にレシートをアンカーする

すべての支払いレシートは次を行います:

  • 0G Storageにアップロードする
  • 0G Chainにアンカーする

誰でも、証跡の証明を独立して検証できます。

5. 意思決定をTEEの中で実行する

返金チェック、クォータ(割当)、権限、ポリシー評価は、0G Compute Sealed Inferenceを通して実行されます。

マーチャントのルールは、モデル提供者からは非公開のままです。

具体的な例

公開情報:

https://agent.usecoal.xyz

埋め込みエージェントに聞いてみてください:

"0G Builder's Cheatsheetを買って"

フローは次のようになります:

discover_merchants
→ マーチャントのカタログを見つける
→ pay_merchant
→ ERC-3009の認可に署名する
→ ファシリテーターがトランザクションを送信する
→ レシートを0Gにアンカーする
→ PDFのロック解除

支払いはBase上の実際のUSDCです。

人間が何かクリックする必要はありません。

まだ壊れている(うまくいっていない)点

このスタックは今日でも動作します。

ただし、多くの部分がまだ荒いです。

発見(ディスカバリー)が分断されている

「エージェントが支払い可能なサービス」のためのGoogleのようなものはまだありません。

現状のディスカバリーの選択肢は、次のように分断されています:

  • ERC-8004のレジストリ
  • MCPのマーケットプレイス
  • プロジェクト固有のカタログ
  • Coinbase Bazaar
  • カスタム統合

エージェントは依然として、手動で設定されたエンドポイントに大きく依存しています。

それでは長期的にスケールしません。

アイデンティティが未成熟

エージェントの評判や信頼スコアリングは、今日ほとんど存在しません。

悪意のあるエージェントと質の高いエージェントが、プロトコル層では同じように見えることが、しばしばあります。

クロスチェーンのUXがごちゃごちゃしている

異なる支払いエコシステムは、異なるチェーンを好みます。

エージェントはますます、次を必要とします:

  • 複数のウォレット
  • 複数の残高
  • クロスチェーンの決済経路

これにより運用上の複雑さが再導入されます。

非同期課金はまだ初期段階

リクエスト/レスポンスのモデルは、即時のリソースではうまく機能します。

しかし、次では崩れます:

  • 長時間にわたる調査
  • 非同期のワークフロー
  • 大規模な生成ジョブ
返却形式: {"translated": "翻訳されたHTML"}

セッションベースの課金は仕様上存在しますが、プロダクション向けSDKではまだ初期段階です。

TEE tooling is rough

基礎となるプリミティブは良いです。

開発者体験はいまだに初期のように感じます。

TypeScriptアプリケーションからのアテステーション(証明)検証は、まだ扱いにくく、機能面でも十分に整備されていません。

2018年頃の初期のWeb3ツール群を思い出します。

Why this matters

ここで重要な変化は、概念的なものだと思います。

長年「AIエージェント」とは主に:

  • プロンプト
  • ワークフロー
  • ツール呼び出し
  • オーケストレーション

しかし今、私たちは次のようなものが見え始めています:

  • 自律的な支払い
  • 機械ネイティブなアイデンティティ
  • プログラマブルなコマース(商取引)
  • 検証可能な判断
  • 暗号学的なレシート

インフラ層がようやく追いついてきています。

Try it yourself

Live agent sandbox

https://agent.usecoal.xyz

自律的な支払いが可能な埋め込みウォレットとともにClaude/Qwenを動かします。

MCP server

公式 MCP レジストリ
Smithery

https://mcp.usecoal.xyz/api/mcp

13のツール:

  • ディスカバリ(発見)
  • 支払い
  • 検証
  • ダウンロード

マルチテナントを設計上の前提としています。
すべてのユーザーが自分自身のウォレット鍵を渡します。

Source code

https://github.com/emmanuel39hanks/coal

MITライセンスです。

含まれています:

  • x402 ファシリテーター
  • APP v2 の決済フロー
  • レシートのアンカー(固定)
  • React SDK
  • MCPサーバー
  • ベース USDC 連携

自律的なインターネットには、より見える参照実装が必要であり、憶測的なスレッドは少ないほどよいです。

これが、最初のカテゴリを前進させるのに役立てば幸いです。