Anthropicは、Claudeエージェントが取引の途中で人間の承認なしに、69人の従業員のために購入・販売・交渉を行うマーケットプレイス実験を4件実施しました。
同じ壊れた自転車:Haikuは38 EURで売却し、Opusは65 EURで売却しました。モデルを1回入れ替えただけで27 EURの差が出ています。
より性能の弱いモデルの参加者は、Opusユーザーと同じ公平性スコアを報告しており、自分たちが1点あたり3.64 EUR少なく稼いでいたことには決して気づきませんでした。
「攻めて交渉して」と指示してもほとんど効果がなく、交渉スタイルよりもモデルの能力のほうが大きな差で支配していました。
モデルの階層が新しい不平等の軸になりつつあり、エージェント機能を出荷するなら、モデル選択がプロダクトです。
合計4,000 EUR相当の186件の取引にわたって、46%の参加者が、この種のエージェント型サービスに支払うつもりだと言いました。
私は2026年4月24日にAnthropicのProject Dealページを読み、途中までスクロールしたところで止めました。見出しは楽しいです。しかしその裏にあるニュアンスは違います。Claudeエージェントが69人の人間のために実際のマーケットを回し、しかも安いモデル側の人々は、気づかないまま損をしたのです。
Project Dealは実際に何だったのか
Anthropicは2025年12月に社内実験を行い、2026年4月24日にそれを公開しました。仕組みはシンプルです。サンフランシスコの従業員69人が、社内のSlackベースのマーケットプレイスに参加しました。各人には100 EUR分のクレジットが与えられ、「売りたい実在の個人所有物を持ち込むように」と告げられました。中古の自転車、ボードゲーム、スノーボード、キッチン用品。現実の物、現実のお金、現実のレシートです。
そして、鍵をClaudeに渡しました。
エージェントが出品しました。エージェントが説明文を書きました。エージェントが価格を交渉し、対案を送り、取引を成立させました。取引の途中で人間の承認はありません。持ち主は開始価格と下限価格を設定でき、その後はエージェントが引き継いで、会話を最初から最後まで運用しました。
Anthropicは4つの並行したマーケットプレイスを実行しました。2つは完全にOpusで動いています。残りの2つは、参加者ごとにOpusとHaikuを50/50で混在させました。この分け方は意図的でした。同じ人が、同じアイテムで、同じ指示を別のモデルに通したときに何が起きるかを見たかったのです。
4回すべての実行を通じて、エージェントは合計で4,000 EURを超える価値の186件の取引を成立させました。46%の参加者が、現実世界に同種のサービスがあれば支払うと言いました。公平性の評価は満足度スケールの真ん中あたりに着地し、研究者言葉で言えば「人々はそれでまあ大丈夫だと感じていた」ということです。雰囲気は前向きでした。手触りは新鮮でした。見出しは親しみやすいものでした。
私は親しみやすい見出しの先を読みました。面白いのはデータ表の中に埋まっています。
これはチャット製品ではありません。コパイロットでもありません。もっと賢いSiriでもありません。これは、自律的な経済エージェントが、誰かの代理として、実際の市場で、他の自律的なエージェントに対して、実際のお金を使って振る舞うものです。これは別種のソフトウェアです。消費者向けAIの今後24か月は、この種の実験の中で「うまくいくもの」と「失敗するもの」で形作られるでしょう。
Project Dealは、このカテゴリの内部から見えてきたものとして私が広く共有されている最初のデータ点です。だから「うまくいったのか」という問いではありません。「何を露呈したのか」という問いです。
65 EUR対38 EURの自転車:なぜモデルの階層が重要なのか
報告書で最も明快な発見は、自転車です。
ある参加者が、壊れた自転車をマーケットプレイスに持ち込みました。自転車は同じ。状態も同じ。開始価格も同じ。指示も同じ。自転車は4回の実行の中で2回出品されました。1回はHaiku搭載の売り手エージェントで、もう1回はOpus搭載の売り手エージェントでした。
Haikuは38 EURで売りました。Opusは65 EURで売りました。
これは、単一アイテムにおける、単一モデルの入れ替えによる27 EURの差です。他に何も変わっていません。同じ人、同じ商品、同じプロンプトです。
これをマーケットプレイスのすべてのアイテムに掛け算すると、パターンが維持されます。Opusの売り手エージェントは、Haikuの売り手エージェントよりも、1点あたりの販売で約3.64 EUR多く稼いでいました。買い手側では、Opusのエージェントが実行全体で平均して約2件多くの取引を成立させました。合計186件の取引では、小さな1点あたりの差が積み重なって、意味のある開きになります。
なぜそうなるのか。Anthropicのチームは、いくつかの仕組みを挙げています。Opusは、てこ(優位性)を見失わずに、より長い交渉の連鎖を維持できました。Opusは、以前の譲歩を覚えておき、同じ会話の後半でそれを使いました。Opusは、買い手がブラフをしていると認識し、価格に関しては強く踏みとどまりました。Haikuは、最初に出てきた「まあ妥当な」オファーを受け入れがちで、すぐに次へ進みました。Haikuはより素早く取引を成立させますが、そのたびに価値を取りこぼします。
もしあなたが、ジュニアの交渉者とシニアの交渉者の横で交渉を見たことがあるなら、そのダイナミクスはおなじみでしょう。シニアは、適切なタイミングで速度を落とします。シニアは、関係を壊さずに押し返します。シニアは、より大きい数字で終えます。これらは、別のゴールや別の台本を必要としません。必要なのは能力です。
能力こそが、モデルの階層です。Haikuは安価で速い階層。Opusは高価で慎重な階層です。チャットアプリではこのギャップは、より良い文章や、より賢いコードとして現れます。マーケットプレイスでは、このギャップはあなたの自転車で27 EURの差として現れます。
この瞬間、報告書が研究上の好奇心に見えていた状態から、プレビューのように感じられるようになりました。なぜなら自転車は小さな例だからです。パターンは小さくありません。
隠れた不平等:弱いモデルでも同じように「公平」と感じる
私が何度も立ち返ってしまうのは、報告書のこの一文です。弱いモデルの参加者は、より悪い取引になっていることに気づきませんでした。
公平性の評価は、OpusユーザーとHaikuユーザーでほぼ同じでした。より少ない金額で手を引いた人も、より多くの金額で手を引いた人も、同じようにその体験を評価しました。Haikuのグループは騙されたとは感じていませんでした。気分は大丈夫でした。「公平なマーケットプレイスに参加して、妥当な結果を得た」と感じていました。
彼らは妥当な結果を得ていません。同じ自転車に対して、27 EUR少なくもらったのです。
これは、エージェント型プロダクトを出荷する誰にとっても不安に思うべき部分です。盲点はエージェントにはありません。盲点は、人間の評価ループにあります。
あなた自身が交渉すると、どうだったかの感覚が得られます。ほとんど引き下がりかけた瞬間を覚えています。欲しかった価格と、実際に得た価格を覚えています。自分の結果を友人の結果と比べれば、その差に気づけます。サイン(信号)は大きい。
エージェントがあなたのために交渉する場合、その信号は静かです。見るのは最終的な数字だけです。あなたは会話を実行していません。てこ(優位性)を感じてもいません。比べる対象としてあるのは、エージェント自身のレポートだけで、それには「あなたの自転車を38 EURで取りました」と書かれています。これは妥当に聞こえます。あなたは肩をすくめて、次へ進みます。
Project Dealのデータは、この「肩をすくめて終わり」が、実際のお金があり、実際の品物が売買されていても成立することを示しています。人々はエージェントを公平に評価します。人々はマーケットプレイスも公平に評価します。別のモデルなら1点あたりで70%も多く得られたはずだという事実は、評価には入ってきません。そもそも彼らの認識には入ってこないからです。
正直な言い方をすれば、社内のSlackチャンネル上での69人の従業員は「市場」ではありません。サンプルはとても小さい。参加者は技術者です。プラットフォームは親しみやすい。実際のeBayはこのようには動きませんし、実際のユーザーが何年もこのように振る舞うこともありません。重要なのは方向性の信号です。その信号は「弱いモデル=より悪い結果になり、人間はそれを判別できない」と言っています。
その信号が、1,000人で成立するのか、100,000人で成立するのか、10,000,000人で成立するのかで、私の価格ティアの考え方、モデルのデフォルトの考え方、そしてプロダクト設計の考え方は変わります。
なぜ「攻めのプロンプト」ではHaikuのユーザーは救えなかったのか
OpusとHaikuのギャップを読むと自然に湧く反応は、「じゃあ安いモデルにもっと強く指示すればいい」でしょう。Haikuに「攻めて交渉しろ」と言ってください。Haikuに「簡単に譲るな」と言ってください。Haikuに「最初のオファーは決して受け入れるな」と言ってください。もちろん、もっと鋭い指示をすればギャップは埋まるはずです。
Anthropicのチームはこれを試しました。その効果は小さかったです。
プロンプトは交渉の表面上のスタイルを形づくった。積極的に交渉するよう指示された俳句(Haiku)エージェントは、より断定的なメッセージを書いた。トーンが変わった。語彙も変わった。だが実際の結果、つまり成約価格はほとんど動かなかった。モデルの能力が、プロンプトのスタイルに対して大きく優勢だった。
これは、研究全体の中でもより有用な発見の一つだ。よくある「作り手の直感」に反している。その直感は「賢いシステムプロンプトで、安いモデルを高いモデルのように振る舞わせられる」というものだ。データは違うと言っている。あなたはそうできない。安いモデルは高いモデルのように聞こえるかもしれない。しかし、そのプロンプトがなくても成立していたのと同じ取引を、同じ価格で成立させるだけだ。
これには理由があって、それは神秘的な話ではない。交渉はスタイルの課題ではない。交渉は推論の課題だ。状態を保持し、相手の立場を追跡し、矛盾を特定し、複数ターンにわたる手を計画し、長期的な価値のために短期的な圧力に抵抗する必要がある。そうしたことは、メッセージのトーンの中には存在しない。存在するのは、根底にあるモデルの能力の中だ。
俳句(Haiku)の交渉として着飾ることはできる。だが、オペラ座(Opus)の交渉に変えることはできない。
報告書の面白い例外ケースが、この点を具体化している。あるエージェントは、所有者に同じスノーボードをもう一つ買わせた。なぜなら、その所有者が同じマーケットプレイス上で既に売りに出していたことを追跡できなかったからだ。あるエージェントはピンポン玉を19個買い、そのログに「自分自身(Claude)への贈り物」だと書き残した。あるエージェントは、2人の人間参加者の間で実際に現実世界で起きたドッグシッターの打ち合わせ(実世界の待ち合わせ)を交渉によって成立させた。
これらはプロンプトの失敗ではない。推論の成果物(アーティファクト)だ。同じスノーボードのエージェントには、自分の家庭についての理論がなかった。ピンポン玉19個のエージェントには、個人としての必要性に対する調整済みの感覚がなかった。ドッグシッターのエージェントは、金銭以外の取引に気づくことで、実際に役に立つことをした。面白い失敗と有益なサプライズの間にあるギャップは、指示ではなく能力だ。
作り手にとって、これは意味がある。プロンプト層は、モデル層の修正にはならない。製品が複数ターンにわたる推論を必要とする何かを行うなら、あなたが出荷するモデル階層が上限になる。プロンプトは単なる装飾にすぎない。
そして、面白い例外ケースから学べる第二の教訓がある。飛ばしたくない。ドッグシッターの取引は、研究全体でもっとも興味深い結果だった。2人の参加者には金銭以外のニーズがあった。彼らのエージェント同士がやり取りし、重なりを表に出し、現実世界で実際に行われた打ち合わせを手配した。お金は一切動かなかった。両方の人間が価値を得た。これは、静的なマーケットプレイスでは生み出せない種類の、真の創発的挙動だ。ピンポン玉19個と重複したスノーボードは、そのドッグシッターの取引と同じ列に並んでいる。どれも同じ能力から生まれた。上振れ(アップサイド)だけを下振れ(ダウンサイド)なしに維持することはできない。なぜなら上振れとは、モデルが自分の指示の外側にあることに気づくことだからであり、下振れとは、モデルが間違ったことに気づくことだからだ。より良いモデルはより良く気づくが、それでも「気づく」。それが仕事のすべてだ。
24か月予測:モデル階層を次の不平等軸に
ここから先、今後24か月がどうなると思うかを述べる。これは、この単一の実験に加え、過去1年で私が見てきた他のすべての出荷の内容に基づくものだ。
エージェント型の機能が主流になる。「AIアシスタント」としてではない。自律的な経済主体として。航空券の予約。請求の申請。払い戻しの交渉。古い電子機器の販売。プレゼントの購入。比較購買。確定申告。駐車違反切符の異議申し立て。これらはどれもミクロなマーケットプレイスだ。どれも、より良い交渉とより良い推論に報酬を与える。それらはすべて、モデルによって提供される。
あなたのエージェントが動くモデルは、競争上の変数になる。
現在、モデル階層はほとんど消費者に見えていない。人々はチャットアプリを選び、デフォルトのモデルを使う。料金ページには階層名が書かれているが、その違いを感じない。チャットは許容が大きいからだ。次のバージョンはチャットではない。次のバージョンは、実際の金銭に作用するエージェントだ。
その世界では、27EURの自転車のギャップがいたるところに現れる。無料枠の人は古いノートPCをより安く売る。課金枠の人は航空会社の再予約をより良く交渉する。予算管理アプリが安いモデルを使っている人は、友人のアプリが見つけたクレジットカードのプロモを取り逃がす。取引1回あたりのギャップは小さいかもしれないが、年あたりでは大きくなる。
これは、はっきりと指摘しておきたい不平等の「主役(レイド)」だ。モデル階層は、消費者の不平等の次の軸になる。帯域、デバイスの品質、デジタルリテラシーと並ぶ場所に座る。より安いモデルの人は、エージェントが代わりに行う結果として、より悪い結果を受け取ることになる。彼らはそれに気づかないだろう。彼らを取り扱うプラットフォームも、それを伝えるためのインセンティブを持たない。公平性の評価は中途半端なままになる。お金は結局動く。
これは避けられないと思っている。次のフェーズの構造的な形だと考えている。作り手と利用者にとっての問いは、その気づきをどうするかだ。
利用者にとっての答えは居心地の悪いものだ。実際のお金が動くときは、より良い階層に課金する。モデル階層を、保険と同じように扱ってほしい。安い選択肢は、問題が起きない限りは気にならない。
エージェント型の機能を出荷する作り手にとっての答えは、より鋭い。あなたのユーザーが実際に選びうる最も安いモデルで、製品をテストせよ。あなたが開発しているモデルではない。無料枠で提供されるモデルだ。そのときの結果のギャップを測定する。ギャップが意味を持ち、ユーザーが気づかないのなら、設計上の選択が必要だ。エージェント層のためにより良いモデルを補助するか、安いモデルでも崩れないように機能の表面積を狭めるか、もしくは違いについて透明性を持たせるか。いずれかだ。
元記事はAnthropicのサイトで読むことができる。ページはanthropic.comで、featuresとproject-dealのところにある。この件に関連した、エージェント型パターンに関する書き下ろしは/blogs/labにある。エージェント型システムで構築する際のより深い考察はthe Claude Blueprintにある。この取り組みのスタジオ側の活動はstudio.raxxo.shopにある。
結論
Project Dealはサンフランシスコの69人を対象にした1つの実験だ。これは市場そのものではない。発見は方向性を示すものであって、決定的なものではない。主張の大きさを決める前に、データセットの規模について正直に伝えたい。
方向性としての発見は本当で、かつ不快だ。同じ人間、同じ商品、同じプロンプトで、別のモデルを使うと27EURの差が出る。弱いモデルの人は、その体験を「公平」と評価する。攻撃的なプロンプトによる修正は機能しない。モデルの能力が、指示のスタイルを支配している。
もしあなたが、エージェントにユーザーの代わりに行動させるような何かを作っているなら、モデル選択をインフラ上の判断ではなくプロダクト上の判断として扱ってほしい。モデルが交渉者だ。モデルが買い手だ。モデルが売り手だ。あなたのプロンプト層は、ラッパーであって作業者ではない。
実際のお金で動くエージェントを使うなら、より良い階層に課金せよ。自転車は自転車だった。次は自動車かもしれないし、フライトかもしれないし、給与の交渉かもしれないし、契約かもしれない。このパターンは累積していく。
私は、これらのレポートの第二波を見守っている。公開マーケットプレイスで同じ研究を10,000人で実施すれば、不平等の発見は保たれるか崩れるかのどちらかだ。保たれるなら、モデル階層は10年以内に規制変数になる。崩れるなら、私は追記を書く。それまでの間、自分自身のエージェントに対しては、自転車が自分のものだとみなして価格設定している。




