Market-Bench:経済・通商競争における大規模言語モデルのベンチマーク

arXiv cs.AI / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、調達や小売など、経済および通商に関連するタスクで大規模言語モデルを評価するための、設定可能なマルチエージェント・ベンチマーク「Market-Bench」を提案する。
  • 調達段階では、LLMが予算制約付きオークションに参加し、限られた在庫を競う入札を行い、小売段階では、価格を設定し、役割に基づく購入者の注意を引くためのマーケティング・スローガンを生成する。
  • Market-Benchは、入札、価格、スローガン、販売、および貸借対照表(バランスシート)の状態まで含む、完全な相互作用の軌跡を記録し、評価では経済・運用上の成果と意味的スコアリングを組み合わせられる。
  • 20の公開・非公開ソースのLLMエージェントに対する実験では、大きな性能差と、「winner-take-most(勝者総取りに近い)」のダイナミクスが示される。すなわち、資本の増価を一貫して達成するのはごく一部のエージェントに限られ、多くは損益分岐点付近にとどまる。
  • 著者らはMarket-Benchを、制約された資源と競争のもとで、シミュレートされた市場においてLLMがどのようにふるまい、競い合うのかを研究するための、再現可能なテストベッドとして位置づけている。

要旨: 大規模言語モデル(LLM)が経済資源を管理し、獲得する能力については、いまだ明確ではありません。本論文では、経済・貿易の競争を通じて、経済的に関連するタスクにおけるLLMの能力を評価する包括的なベンチマークである\textbf{Market-Bench}を提案します。具体的には、LLMが商品を調達し小売する小売エージェントとして振る舞う、構成可能なマルチエージェントのサプライチェーン経済モデルを構築します。\textbf{調達(procurement)}の段階では、LLMは予算制約のあるオークションで限られた在庫に対して入札します。\textbf{小売(retail)}の段階では、LLMは小売価格を設定し、マーケティング用のスローガンを生成し、購入のために役割ベースの注意(attention)メカニズムを通じてそれらを買い手に提供します。Market-Benchは、入札、価格、スローガン、販売、そして貸借対照表(バランスシート)状態の軌跡を記録し、経済・運用・意味論的(semantic)な指標による自動評価を可能にします。20の公開・非公開ソースのLLMエージェントを用いたベンチマークでは、大きな性能差と、勝者総取り(winner-take-most)現象、\textit{i.e.}、すなわち少数のLLM小売業者だけが一貫して資本の増加(capital appreciation)を達成できる一方で、多くのエージェントは、意味の一致(semantic matching)スコアが類似しているにもかかわらず、損益分岐点の周辺(break-even point)にとどまることが明らかになりました。Market-Benchは、競争的な市場においてLLMがどのように相互作用するのかを研究するための、再現可能なテストベッドを提供します。