概要: 私たちは、予測システムの推論能力を評価するために設計された初めてのベンチマークであるTFRBenchを紹介します。従来、時系列予測は数値の正確さだけで評価され、基盤モデルは「ブラックボックス」として扱われてきました。既存のベンチマークとは異なり、TFRBenchは予測システムが生成する推論――具体的にはチャネル間の依存関係、トレンド、外部イベントに対するそれらの分析――を評価するためのプロトコルを提供します。これを可能にするために、数値的根拠に基づく推論の痕跡(トレース)を合成する反復的な検証ループを利用する、体系的なマルチエージェント枠組みを提案します。5つの領域にまたがる10のデータセットでの評価により、この推論が因果的に有効であり、評価に有用であることを確認しました。さらに、生成した痕跡を用いてLLMにプロンプトすることで、直接的な数値予測と比べて予測精度が大幅に向上します(例:平均 40.2\%\to56.6\% )、これは推論の質の高さを検証するものです。対照的に、ベンチマーク実験では、市販の(オフ・ザ・シェルフの)LLMが、推論(LLM-as-a-Judgeスコアの低さ)と数値予測の両方において一貫して苦戦し、領域固有のダイナミクスを捉えられないことが頻繁に観察されました。したがってTFRBenchは、時系列予測における解釈可能な、推論に基づく評価の新しい標準を確立します。私たちのベンチマークは以下で利用可能です: https://tfrbench.github.io
TFRBench:時系列予測システムを評価するための推論ベンチマーク
arXiv cs.AI / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- TFRBenchは、数値精度だけに依存するのではなく、時系列予測システムの推論能力を評価する新しいベンチマークとして導入される。
- このベンチマークには、プロトコルと、反復的な検証ループを備えた体系的なマルチエージェント・フレームワークが含まれており、チャネル間の依存関係、トレンド、外部イベントについての数値的に裏付けられた推論トレースを生成する。
- 5つの領域にまたがる10のデータセットにおいて、著者らは、生成された推論トレースが因果的に有効で評価に有用であること、またそれらを用いてLLMにプロンプトすることで予測精度が向上すること(例:約40.2%から約56.6%)を報告している。
- 実験では、市販の(既製の)LLMは、この設定における予測精度と効果的な推論の双方にしばしば苦戦し、領域固有のダイナミクスを見落とすことが多いことも示されている。
- TFRBenchは、時系列予測における解釈可能で推論に基づく評価の新たな標準として位置づけられており、ベンチマークはオンラインで公開されている。




