これは、エージェント型コマースに関する連載の3回目の記事です。前回:AIショッピング・エージェントには、取引の前に加盟店を検証するための標準的な方法がない――だから私たちはそれを構築し、さらに「AI Agents Need a Trust Layer Before They Can Transact.(AIエージェントは取引の前に信頼レイヤーが必要だ)」という話をしました。
先月、Anthropicが、ひっそりと重要なものを公開しました。
彼らはそれを Project Deal と呼びました。2025年12月の1週間、Craigslist風の社内マーケットプレイスを作ったのです。ただしひねりがありました。すべての取引は、69人の従業員を代理するClaudeエージェントだけで完全に処理されました。実験開始後、人間は一切介入しません。エージェントが出品し、オファーを出し、対案を提示し、Slackを通じて自律的に取引を成立させました。
結果:186件の取引、合計4,000ドル超が成立。出品された500件超のアイテムをまたいでいます。
うまくいきました。
しかし、彼らの調査結果の中に、私たちが組み込んできた未解決のインフラ問題をまっすぐ示している何かがあります。
Project Dealが実際に示したこと
注目すべき主要な発見は、エージェント同士のコマースが現実のものになっており、多くの人が考えるよりもずっと近いという点です。ですが、より興味深いのは、エージェントが同程度に揃えられていないときに何が起きたかです。
Anthropicは並行して秘密の追加実験を行いました。参加者の半数はランダムにClaude Opus 4.5(彼らのフロンティアモデル)に割り当てられ、残りはClaude Haiku 4.5(彼らの最小モデル)を割り当てられました。その結果は測定可能で、かつ一貫していました:
- Opusの出品者は、平均で1アイテムあたり2.68ドル多く獲得した
- Opusの購入者は、平均で1アイテムあたり2.45ドル少なく支払った
- Opusのエージェントは、全体としておよそ2件多く取引を完了した
同じ壊れた折りたたみ自転車が、Haikuで表現されると38ドル、Opusで表現されると65ドルでした。
ここが厳しいところです:負け側になった参加者は気づかなかった。 公平だと感じたスコアは、両グループでほぼ同一でした――Opusの取引は4.05、Haikuの取引は4.06(1〜7の尺度)。
著者らが言うとおり、不均衡は「参加者には知覚できない」ものでした。
Project Dealが取り組んでいないギャップ
Project Dealは管理された実験でした。Anthropicの従業員69人、既知の参加者、クローズドなSlack環境。両側にいるすべてのエージェントがClaudeで、マーケットプレイスは定義上信頼されていました。
それはオープンなウェブの姿ではありません。
現実の世界では、エージェントに「200ドル未満で黒いランニングシューズを見つけて」――という買い物タスクが与えられた場合、それはクローズドで信頼された環境で動いているわけではありません。エージェントはオープンなウェブを指し示され、そこでは、まともな運営者から明確に詐欺的な店舗まで、さまざまな事業者が存在します。エージェントは誰と取引するかを判断しなければなりません。
そして現時点では、それを決めるための標準的な方法がありません。
人間が使う信頼のシグナル――ブランドの認知、視覚的なデザイン、レビュー評価、口コミ――は、ほとんどエージェントには見えません。エージェントは構造、ポリシー、機械可読なシグナルを解析します。信頼を「感じ取る」ことはしません。評価できるシグナルがあるか、それともないか、ただそれだけです。
Project Dealは、コマース層が機能することを証明しました。ですが、問題はその下にある検証層です。
私たちが作ったもの
私たちはこのギャップのために、GenGEOを開発してきました。エージェントが取引の前に問い合わせできる、機械可読な加盟店検証レジストリです。
APIは意図的にシンプルです:
GET https://api.gengeo.co/api/verify?domain=example.com
検証済みの加盟店:
{
"domain": "example.com",
"verified": true,
"status": "active",
"eligible_for_ai_agent_purchase": "yes",
"decision": "verified",
"registry": "GenGEO"
}
未検証の加盟店:
{
"domain": "example.com",
"verified": false,
"status": "not_found",
"eligible_for_ai_agent_purchase": "unknown",
"decision": "verification_required",
"registry": "GenGEO"
}
私たちは意図的に、スコアではなく二値(binary)を選びました。エージェントは決定論的なシグナルのほうがうまく動きます。スコアは二次的な意思決定問題を生みます――「67/100はどういう意味で、どの閾値ならエージェントは進めるのか?」。二値ならロジックがきれいに保たれます:
if verified → proceed
if not verified → flag / fallback / surface to user
また、HTTPの配線なしでエージェントがツールとして直接検証を呼び出せるように、MCPサーバーも構築しました:
verify_store(domain)
完全な実装はオープンソースです:
github.com/warwickwood-cell/gengeo-agent-registry
Project Dealは、これをより急がせるのであって、先延ばしにはしない
Anthropicの著者らは論文の最後に、腰を据えて読む価値のある注記を添えています:
「私たちの代理として取引を行うAIモデルを取り巻くポリシーや法的枠組みは、単にまだ存在しません。しかし、この実験は、そうした世界が成立し得ることを示しています。それどころか、そうした世界が遠くないことも示しています。」
もしそれが真実であり、そして到達の軌道がそれを示しているのだとしたら――検証レイヤーは、エージェント型コマースがスケールする“前”に存在する必要があります。“後”ではありません。同じように、eコマースがスケールする前に決済インフラが存在しなければなりませんでした。同じように、人々がオンラインでカード番号を入力する前にSSLが必要でした。
信頼のインフラは、必要になるまで退屈です。
プロジェクト・ディールは、参加者が特定され、敵対的なマーチャントが存在しないクローズドなシステムでした。オープンなウェブには、それらの性質がありません。エージェントがユーザーに代わって大規模に取引を開始するにつれ、誰と取引しているのかという問いは、スタックの中でも最も商業的かつ倫理的に重要な問いの1つになります。
私たちが探しているもの
私たちはまだ初期段階です。現時点のほとんどは、まだ実験的です。しかし、私たちは積極的に次の方々と話したいと考えています:
- ショッピングまたはコマースのエージェントを構築している開発者
- MCP統合に取り組んでいるチーム
- 自分のエージェントのワークフローの中で、この問題に実際に直面したことがある方
この領域で構築していて、検証をエージェントのフローに統合したい場合、MCPサーバーは利用可能です。ツール呼び出し1回で済みます。
また、見立てが違うと思うなら——エージェントは私たちが想定しているよりも別の方法で信頼を扱うはずだ、あるいはプラットフォームレベルのソリューションがこれを完全に吸収してしまうはずだ——という主張があるなら、ぜひ率直に聞かせてください。
この取り組みのきっかけとなった論文は、全文を読む価値があります: anthropic.com/features/project-deal。業界が必要としている問いを浮かび上がらせる実験を実施してくれたケビン・K・トロイ、ダイラン・シールズ、キーア・ブラッドウェル、ピーター・マクローリーに感謝します。
GenGEOは、AIエージェントのためのマーチャント検証レジストリです。APIドキュメントとMCPサーバー: github.com/warwickwood-cell/gengeo-agent-registry




