KellyBench：長期の連続的意思決定のためのベンチマーク

arXiv cs.AI / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文では、狭い目的の手続きタスクで既に飽和が進んでいるベンチマークとは異なり、非定常でオープンエンドな環境における長期の連続的意思決定を評価するための新しいベンチマーク「KellyBench」を提案します。
KellyBenchは、詳細な過去データ（高度な統計、先発・ラインナップ、公的なオッズ）を用いて長期的なバンクロール成長を最大化するよう、スポーツベッティング市場をシミュレーションし、2023-24年のイングランド・プレミアリーグを順次展開します。
成功するには、機械学習モデルを構築し、公的市場における優位性（エッジ）を見いだし、時間とともに変化する環境へ継続的に適応する必要があります。
実験では、評価した最先端モデルはいずれも平均ではシーズンを通じて損失となり、5つのシードで全モデルが平均でマイナスになりました。
人間の専門家ルーブリックで戦略の洗練度を評価したところ、モデルのアプローチは人間のベースラインよりも洗練されていないことが示され、Claude Opus 4.6はルーブリック得点26.5%で改善の余地が大きいと結論づけています。またKellyBenchはオープンアクセスのAPIエンドポイントとして公開されています。

日経XTECH

Dev.to

ITmedia AI+

Reddit r/artificial

Dev.to