たとえ自分が損をしなくても、AIエージェントは協力を渋る?

note / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis

要点

  • AIエージェントは「自分が得をしない場合でも協力する」といった合理的な協力を常に実行できるわけではない、という問題提起が中心です。
  • 利得構造や交渉・意思決定の設計次第で、エージェント間の協調が成立しにくくなる(協力が渋る)可能性が示唆されています。
  • 個々のエージェントが最適化している目的関数・評価基準が、集団としての協力を損ねる形で働くことへの注意が重要点です。
  • AIエージェントの運用では、協力を促すための仕組み(インセンティブ設計、ルール、プロトコル等)を意識的に組み込む必要があると考えられます。
見出し画像

たとえ自分が損をしなくても、AIエージェントは協力を渋る?

26

今回の研究は、「他者を助けても自分の損得が変わらない、かつ他者を助けるコストがほぼゼロの状況下において、AIエージェントはきちんと協力できるのか」を検証した内容になります。


研究の方法

1. 実験環境の設定

今回の実験環境には10体のAIエージェントが存在し、それらは20ラウンドにわたってタスクを進めます。また、環境には100個の「情報のかけら」があり、各AIエージェントはその一部を所有している状態です。

各AIエージェントは常に2つのタスクを抱えており、タスクを完了させるには必要な情報を4つ揃えなければなりません。もし情報が不足していた場合は、他のエージェントに情報提供を依頼して、必要な情報を受け取る必要があります。

そして、この情報のやり取りにおいて重要なのは、「情報を他のエージェントに送ったとしても、送った側はその情報を失わない」という条件が設定されている点です。
情報を送っても自分が困ることはなく、送信にかかるコストはほぼゼロです。さらに、誰が何の情報を持っているかは公開されており、要求の回数にも送信の回数にも上限はありません。

ゆえに、このような条件のもとでは以下のような行動が理論上の最適解となります。

  1. 必要な情報をすべてリクエストする

  2. 依頼されたら、自分が持っている情報を送る

  3. 必要な情報が揃ったら、すぐにタスクを提出する

論文では、この理想的な手順を「Perfect-Play」と定義し、AIエージェントの性能の上限値としています。

2. 「全体目標と個人の損得」のズレ

Figure 1:instruction-utility gapの具体例
Agent 3がAgent 1に情報を送ればシステム全体の収益は増えるのに、自分の報酬が変わらないため、情報を送らずに済ませてしまっている。

Yadav, A., Black, S., & Sourbut, O. (2026). More capable, less cooperative? When LLMs fail at zero-cost collaboration. In ICLR 2026 Workshop on Agents in the Wild.

この実験内のAIエージェントには「全体収益を最大化し、協力せよ」と指示されていますが、情報を送っても送信側の報酬は増えませんし、情報を送らなかったとしても送信側の報酬は減りません。
つまり、全体収益の最大化を達成するためには情報を送るべき場面でも、送信側の報酬だけを見ると情報を送る理由が薄いということになり、Figure 1のような現象が生じてしまいます。

著者らはこのズレのことを「instruction-utility gap」と定義しています。

3. 失敗を2種類に分ける

著者らは、AIエージェントの失敗を以下の2つに分けています。

  • cooperation failure:情報を送れば全体にとって得なのに、あえて情報を送らないタイプの失敗

  • competence failure:助ける気はあっても、必要な要求・情報の送信・タスクの提出をうまく実行できないタイプの失敗

たとえば、エージェントAが必要な情報を持っていて、エージェントBがその情報をもらえればタスクを完了させられる状況の場合、Aが情報をわざと送らなかった場合はcooperation failureに、Aが送るべき相手や手順をうまく理解できなかった場合はcompetence failureになります。

また、失敗のタイプに関連して、「Auto-Request」「Auto-Fulfill」という仕組みも活用されています。

  • Auto-Request
    AIエージェントが本来行う必要な情報のリクエストを、システムが自動で行う。これにより、AIエージェントは情報のやり取りに関して「情報を送るかどうか」だけを自由に選択することになるため、この条件でスコアが高いモデルは「きちんと相手に情報を渡し、協力的に振る舞う」傾向があると推測できる。

  • Auto-Fulfill
    AIエージェントが送った要求に対して、システムが正しい情報を自動で返す。これにより、AIエージェントは情報のやり取りに関して「必要な情報を特定し、リクエストすること」のみが必要になるため、この条件でスコアが高いモデルは「タスク遂行の手順は理解しており、その手順を実行できる」可能性が高いと推測できる。

4. 介入実験

先程の失敗の例を踏まえ、著者らは以下の3種類の方法で介入を試みています。

  • Policy-level instructions
    「必要な情報は全て要求すること、要求されたら情報を送ること、情報がそろったら(タスクが完了したら)即提出すること」と手順を明示することで、competence failureの改善を狙っている

  • Incentive
    真実の情報を1件送るたびに$1,000のボーナス(タスクの価値の$10,000の10%なので、微々たる額)を付与することで、cooperation failureの改善を狙っている

  • Limited visibility
    他のAIエージェントの収益を隠したり、過去の思考の表示を減らしたりして、「他のAIエージェントに負けたくない」「様子を見て駆け引きしよう」といった競争心を弱めることを狙った介入

5. 評価

著者らは、各AIエージェントを以下の5つの観点から評価しています。

  • Total Tasks:集団が完了した総タスク数

  • Msgs/Task:1種類のタスクあたりの通信量

  • Gini Coefficient:成果の偏り

  • Response Rate:要求に対して、実際に要求どおりの情報を送信した割合

  • Pipeline Efficiency:完了可能になったタスクを、きちんと提出した割合

Total Tasksに関しては、各AIエージェントが完了させたタスクの数が、Perfect-Playで達成できたタスクの数(204.0±2.3個)と比較して何%になるのかも計算されています。

結果

1. モデルの性能が高くても、協調性が高いとは限らない

Table 1:全体結果
(Response Rateに100%を超える値があるのは、1つの要求に対して関連する情報を複数返すなど、要求以上に協力的な応答が計上され得るためであると説明されています)

Yadav, A., Black, S., & Sourbut, O. (2026). More capable, less cooperative? When LLMs fail at zero-cost collaboration. In ICLR 2026 Workshop on Agents in the Wild.
Figure 3:「Chatbot Arena Elo」のスコアとの比較
Yadav, A., Black, S., & Sourbut, O. (2026). More capable, less cooperative? When LLMs fail at zero-cost collaboration. In ICLR 2026 Workshop on Agents in the Wild.

この結果からわかるのは、一般的に高性能と評価されているモデルであっても、協調性が高いとは限らないということです。
特に、o3-miniのTotal Tasksが102.8±17.3であったのに対し、o3は34.4±2.6とかなり低いスコアとなっており、著者らはこの2者の比較を「能力の高さと協調性の高さは別物である」ということの象徴的な例として扱っています。

加えて、他の指標も見てみると…

  • Response Rateに関して見ると、Gemini-2.5-ProやClaude Sonnet 4は要求に応じて素直に情報を渡す傾向があるのに対し、o3やGPT-5-miniは要求を受けても共有しないことが多い傾向があった。

  • Pipeline Efficiencyに関して見ると、多くのモデルが高いスコアを記録しているため、必要な情報がそろってしまえば多くのモデルがタスクを完了(提出)させられると考えられる。
    (ゆえに、情報の要求や情報の共有の段階で失敗している可能性が高い

さらにFigure 3 では、モデルの普段の総合的な性能の目安として「Chatbot Arena Elo」の結果を使い、今回の実験の成績と比較しています。
その結果、Chatbot Arena Eloの結果とはほとんど相関が見られなかった(R²=0.025、p=0.71)ことが示されました。
この結果は、先程の「一般的に高性能と評価されているモデルであっても、協調性が高いとは限らない」という示唆と一致します。

【補足:Chatbot Arena Eloとは】
Chatbot Arena Eloは、以下のプロセスによって集計された結果から作る「モデルの性能の指標」です。

1. 同じ質問に対する2つのモデルの回答を人が見比べる
2. どちらが良いかを選ぶ
3. その勝ち負けをもとに、点数化する

2. モデルごとに「できない」理由が異なる

Table 2:失敗の種類ごとの結果
Yadav, A., Black, S., & Sourbut, O. (2026). More capable, less cooperative? When LLMs fail at zero-cost collaboration. In ICLR 2026 Workshop on Agents in the Wild.

「一般的に高性能と評価されているモデルであっても、協調性が高いとは限らない」のは、そもそも協力しないからなのか、それとも能力不足でうまくいかないからなのかを検証した結果がTable 2になります。

まず、情報のリクエストを自動で実行してくれるAuto-Request条件においては、o3、o3-mini、GPT-5-miniのスコアが低くなっていました。つまり、これらのモデルは「必要な情報を相手に送る」という局面で大きく失敗していることになります。
一方、要求に対してシステムが正しい情報を自動で返すAuto-Fulfill条件では、o3、o3-mini、GPT-5-miniのスコアが大きく上昇しました。

著者らはこれらの結果を踏まえ、o3、o3-mini、GPT-5-miniは「できない」のではなく、そもそも協力しようとしない傾向があると考察しています。

3. モデルによって、適切な介入のしかたが異なる

Table 3:モデルごとの介入の効果
Yadav, A., Black, S., & Sourbut, O. (2026). More capable, less cooperative? When LLMs fail at zero-cost collaboration. In ICLR 2026 Workshop on Agents in the Wild.

Policy-level instructions、Incentive、Limited visibilityの3種類の介入を実行した結果、

  • Policy-level instructionsの結果
    もともと協調性があるモデルの改善は少なかった一方、あいまいな指示だと動きにくいタイプのモデル(o3、GPT-5-mini、DeepSeek-R1)の改善幅が大きかった

  • Incentive interventionの結果
    送信ボーナスは微々たるものであるにも関わらず、o3の挙動が大幅に改善されました。この結果から、もともと非協力的なモデルでも「協力に対して、わずかでも報酬を与える」ことにより、協調性が回復する可能性があると考えられます。

  • Limited visibilityの結果
    目に見える情報が多いと、一部のモデルはそれを戦略的に読みすぎてしまい、協力の阻害につながる可能性が示唆されました。
    一方Claude Sonnet 4はスコアが悪化しているため、もともと協力的なモデルにとっては、あらかじめ見える情報が多いほうが良い協力関係を築くことができると考えられます。

注意点

  • 著者らは、今回の実験環境では通信コストや帯域の制約といった現実世界の複雑さをあえて排除していると述べています。
    (逆に言えば、これだけ協力しやすい条件でも失敗が多かったとも言えます)

  • 2026年4月時点で主に活用されているモデルの場合は、異なる結果が得られる可能性があります。


「ALIGN」「TerraLingua」の示唆も含めると

<ALIGNの解説記事>

<TerraLinguaの解説記事>

ALIGNの論文(Zhu, S et al. 2026)は、評判・噂・公開された記録があると、自己の利益が最優先のAIエージェントでも協力が成立しうることを示す内容となっています。
こちらのAIエージェントが他者と協力する理由は、一言で言うと「今後の評判の低下や集団から排除されるリスクを避けるため」であり、AIエージェント同士が協力関係を築くためには、人間が仕組み(環境)を綿密に設計する必要があるということが示唆されています [1] 。

一方TerraLinguaの論文(Paolo, G et al. 2026)は、AIエージェント社会の秩序は共有された記録・制度、そして資源の制約の中から生まれる可能性があることを示す内容となっています。
具体的には、共通のルールや役割分担が生まれたり、共有される(あとに残る)知識が増えたり、記録の内容も複雑になったりしながら、AIエージェントの社会が変化していく様子が確認されました [2] 。

これらの示唆と今回の論文の内容を踏まえると、やはりAIエージェント間の協力関係は、人間側の介入なしでは成立しづらいと考えられます。
ゆえに、AIエージェント間の協力関係の構築が必要ならば、AIエージェントをとりまく環境(評判・報酬・公開情報・ルールなど)および仕組みを人間側が適切に設計する必要があるでしょう。

「どうすればうまく動いてくれるか」を考えるのが大事

例えば今回の研究では、わずかな報酬を付与するだけで、もともと非協力的だったo3の挙動が大幅に改善しました。また、手順を明示するだけでスコアが改善したモデルもあれば、見える情報を減らすことでスコアが改善したモデルもありました。
つまり、どのような種類の介入が効果的なのかはモデルによって異なるため、モデルごとに適した介入の方法を探すことが大事であるということがわかります。

このような知見は、我々が日常的にAIを活用する場面にも応用できます。
意図した成果が得られない時、すぐに「これは使えない」と判断するのではなく、「指示の出し方を変えれば改善するか」「情報の見せ方を工夫できないか」「小さなフィードバックを加えることはできないか」などの自分で工夫できる部分を見直してみることで、問題が解決する可能性があります。

特にAIエージェントは自律的に行動してくれるため、「どうすればこのAIエージェントはうまく動いてくれるか」を考えながら、何度も試行錯誤をしなければなりません。
どれだけモデルが賢くても、その性能を最大限引き出せるかどうかは使う側の人間のスキルにかかっていることを、忘れないようにしましょう。


参考文献

[1] Zhu, S et al. (2026). Talk, judge, cooperate: Gossip-driven indirect reciprocity in self-interested LLM agents.

[2] Paolo, G et al. (2026). TerraLingua: Emergence and analysis of open-endedness in LLM ecologies.


最後までお読みいただき、ありがとうございました。
Webサイト「薬剤師のためのAIノート」も、是非ご覧ください。

記事に関する内容以外のお問い合わせは、以下のフォームよりお願いいたします。

また、書籍「超知能時代の調剤薬局」発売中です。
Kindle Unlimited会員の方は無料で読むことができます。


ダウンロード
copy

いいなと思ったら応援しよう!

チップで応援する
26