要旨: 予測ベンチマークは精度のランキング(リーダーボード)を生み出しますが、なぜ一部の予測者が他よりも正確なのかについての洞察はほとんど得られません。私たちは、Bench to the Future 2(BTF-2)を紹介します。BTF-2は、固定された15M文書の研究コーパスを用いた、1,417件の過去からの状況推定(pastcasting)問題から成ります。この環境では、エージェントがオフラインで再現可能に研究し、予測を行い、その結果として完全な推論の記録(推論トレース)を生成します。BTF-2は、Brierスコアで0.004の精度差を検出でき、研究と判断のそれぞれにおいてエージェントの相対的な強みの違いを識別できます。私たちは、どの単一の最先端エージェントよりもBrierスコアで0.011高い精度の予測者を構築し、それを用いて、後知恵バイアスなしにエージェントの戦略的推論を評価します。より優れた予測者の主な違いは、盲点の事前検討(pre-mortem)における分析と、ブラックスワンの考慮にあります。専門の人間の予測者は、最先端エージェントの支配的な戦略的推論の失敗が、政治的・ビジネス上のリーダーのインセンティブの評価、表明された計画を実行に移す可能性の判断、そして制度的なプロセスのモデリングにあることを見出しました。
予測エージェントにおける戦略的推論の評価
arXiv cs.AI / 2026/4/30
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、1,417問の過去予測(pastcasting)問題と固定された15M文書の研究コーパスを用い、再現可能なオフライン推論トレースを生成する予測ベンチマーク「Bench to the Future 2(BTF-2)」を提案している。
- BTF-2は、精度の小さな差(Brierスコアで約0.004)を検出でき、エージェントの強みが「調査」と「判断」のどちらにあるかを切り分けられることを示している。
- 著者らは、統合型の予測器を構築し、最先端の単一エージェントよりBrierスコアを0.011改善したうえで、後知恵バイアスを避けつつ戦略的推論を評価している。
- より良い予測を生む主な要因は、盲点の事前検討(pre-mortem)と「ブラックスワン」の考慮をより体系的に行うことだと結論づけている。
- 専門家の人間予測者は、最先端エージェントの戦略的推論における失敗が、政治・ビジネスのリーダーのインセンティブ評価、表明した計画の実行可能性の見積もり、制度的プロセスのモデル化に集中していると指摘している。