PolyBench:ライブ予測市場データに基づくLLMの予測・トレーディング能力のベンチマーク

arXiv cs.LG / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • PolyBenchは、Polymarketの時刻ロックされたスナップショットに、中央限界板(CLOB)の状態とリアルタイムのニュースストリームを組み合わせて、LLMの予測市場タスクを評価するマルチモーダルのベンチマークとして提案されています。
  • このベンチマークは、4,997件のイベントにまたがる38,666件の二値予測市場を対象とし、2026年2月6日〜12日の間に同期したポイントインタイムのクロスセクションを記録します。
  • 7つの最先端LLM(オープン/クローズド両系統)を、同一の時刻ロック条件の下で実行し、合計36,165件の予測を生成しました。
  • シミュレーションした注文板の実行では、「高い自信」を示していても金融的に有益であるとは限らないギャップが明確に示されました。正のリターンを得たのは2モデルのみで、MiMo-V2-Flash(CWR 17.6%)とGemini-3-Flash(CWR 6.2%)が先行しました。
  • 論文ではPolyBenchを、汚染耐性があり、金融的に裏付けられた評価基準として、今後のLLM研究(予測・トレーディング)に役立つと位置づけています。

Abstract

ライブの市場シグナルから現実世界の出来事を予測するには、定性的なニュースと、定量的なオーダーブックのダイナミクスを、厳密な時間規律のもとで統合するシステムが必要である――しかし、既存のベンチマークはこの課題を十分に捉えられていない。私たちは \textbf{PolyBench} を提示する。これは Polymarket から作成したマルチモーダル・ベンチマークであり、4,997 件の出来事にまたがる 38,666 件の二値(binary)予測市場について、時点(point-in-time)の断面を記録している。各スナップショットを、中央限度(Central Limit Order Book: CLOB)の状態とリアルタイムのニュース・ストリームとを同期させて結合している。PolyBench を用いて、7 つの最先端 Large Language Model(オープンソースおよびクローズドソースの両方の系統を含む)を評価し、2026 年 2 月 6 日から 12 日の間に収集された、まったく同一でタイムスタンプにロックされた市場状態に対して 36,165 件の予測を生成させる。多次元の枠組みにより、方向性の正確さ、提案する Confidence-Weighted Return(CWR)、年率換算パーセンテージ利回り(APY)、およびシャープ・レシオを、現実的なオーダーブック実行シミュレーションを通じて評価する。その結果は顕著な性能の乖離を示す。7 つのモデルのうち 2 つだけが正の財務的リターンを達成する―― MiMo-V2-Flash が \textbf{17.6%} CWR、Gemini-3-Flash が 6.2% CWR――一方で残り 5 つは、表明された信頼度が一様に高いにもかかわらず損失を被る。これらの知見は、表面的な言語流暢さと、ライブ市場に伴う不確実性のもとでの真の確率的推論との間にギャップがあることを強調しており、将来の LLM 研究に対する、汚染に耐える(contamination-proof)かつ財務的に裏付けられた評価基準として PolyBench を確立する。データセットとコードは \underline{\href{https://github.com/PolyBench/PolyBench}{https://github.com/PolyBench/PolyBench}} で公開している。