PolyBench:ライブ予測市場データに基づくLLMの予測・トレーディング能力のベンチマーク
arXiv cs.LG / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- PolyBenchは、Polymarketの時刻ロックされたスナップショットに、中央限界板(CLOB)の状態とリアルタイムのニュースストリームを組み合わせて、LLMの予測市場タスクを評価するマルチモーダルのベンチマークとして提案されています。
- このベンチマークは、4,997件のイベントにまたがる38,666件の二値予測市場を対象とし、2026年2月6日〜12日の間に同期したポイントインタイムのクロスセクションを記録します。
- 7つの最先端LLM(オープン/クローズド両系統)を、同一の時刻ロック条件の下で実行し、合計36,165件の予測を生成しました。
- シミュレーションした注文板の実行では、「高い自信」を示していても金融的に有益であるとは限らないギャップが明確に示されました。正のリターンを得たのは2モデルのみで、MiMo-V2-Flash(CWR 17.6%)とGemini-3-Flash(CWR 6.2%)が先行しました。
- 論文ではPolyBenchを、汚染耐性があり、金融的に裏付けられた評価基準として、今後のLLM研究(予測・トレーディング)に役立つと位置づけています。




