MarketBench:AIエージェントを市場参加者として評価する

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、AIエージェントが市場のような協調環境で、タスク成功確率と完了コスト(例:トークン使用量)に関する正確なシグナルを出せるかを評価するためのベンチマークMarketBenchを提案している。
  • SWE-bench Liteの93タスクのサブセットを用い、最近リリースされた6つのLLMを検証した結果、モデルは成功確率とトークン消費の両面でキャリブレーションが不十分であることが示された。
  • エージェントが自己の推定を入札(オークション)に用いると、全情報がある場合に期待される割り当てと結果が乖離する。
  • 過去の実験で得た能力情報をコンテキストに追加する介入はキャリブレーションを改善するが、その差をフルインフォメーションのベンチマークに対して“わずかに”縮めるにとどまる。
  • さらに、これらのLLMで市場ベースのスキャフォールディングの性能も報告されており、自己評価(self-assessment)が市場型の協調を成立させる上での重要なボトルネックだと結論づけている。

要旨: 市場は、より広く市場を正当化するために用いられているのと同様の理由から、類似した理由でAIエージェントの活動を調整する有望な方法です。市場に効果的に参加するためには、エージェントは、自身がタスクを成功裏に完了できる能力と、そのために必要なコストについての、情報量のあるシグナルを持つ必要があります。私たちは、AIエージェントがこれらの能力を有しているかどうかを評価するためのベンチマークであるMarketBenchを提案します。デモとして、最近リリースされた6つのLLMを用い、ソフトウェア工学ベンチマークであるSWE-bench Liteの93タスクの部分集合を使用します。これらのLLMは、成功確率とトークン使用量の両方について不適切に校正(ミスキャリブレーション)されており、この自己報告から構築されたオークションは、完全情報に基づく割り当てから乖離します。事前の実験から得られた能力に関する情報をコンテキストに追加する追補的な介入では、校正が改善されますが、完全情報ベンチマークとのギャップはわずかにしか縮まりません。また、これらのLLMを用いた市場ベースの足場(スキャフォールディング)の性能についても記録します。私たちの結果は、AIエージェントの市場型の協調における重要なボトルネックとして自己評価(セルフアセスメント)を示唆しています。