TimeSeek:エージェント型フォアキャスターの時間的信頼性

arXiv cs.AI / 2026/4/7

💬 オピニオン

要点

  • 本論文は、予測市場のライフサイクルのさまざまな段階において、エージェント型LLMフォアキャスターがどれほど信頼できるかを測定するためのベンチマークであるTimeSeekを提案する。

要旨: エージェント型LLM予測者の信頼性が予測市場のライフサイクルの中でどのように変化するかを調べるためのベンチマークであるTimeSeekを提案する。合計15,000件の予測について、ウェブ検索の有無を含め、5つの時間的チェックポイントにおける150件のCFTC規制対象のKalshiバイナリ市場で、10の最先端モデルを評価する。モデルは、市場の開始直後および不確実性が高い市場では最も競争力が高いが、決着が近い局面や強いコンセンサスがある市場では大幅に競争力が下がる。ウェブ検索は全体としてのプールされたブライア・スキルスコア(BSS)をあらゆるモデルで改善する一方で、モデルとチェックポイントの組の12%では悪化させる。これは、平均的には検索が有用だが一様に有用ではないことを示している。単純な2モデルのアンサンブルは市場全体を上回ることはないものの、誤差を低減する。これらの記述的結果は、単一の市場スナップショットや一様なツール使用の設定ではなく、時間を考慮した評価や選択的な委譲(deference)の方策を動機づける。