TimeSeriesExamAgent:大規模に時系列推論ベンチマークを作成する
arXiv cs.AI / 2026/4/14
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、LLMが表面的なパターン照合を超えて時系列データを本当に理解しているのかを問い、既存のベンチマークはしばしば手作業でキュレーションされ、範囲も限定的である点を指摘している。
- 合成時系列に基づく多肢選択式ベンチマーク「TimeSeriesExam」を提案し、5つの推論カテゴリ(パターン認識、ノイズ理解、類似性分析、異常検知、因果性)に整理する。
- 「TimeSeriesExamAgent」を導入し、医療・金融・天候といった実世界データセットから、試験のようなタスクを自動生成することで、ベンチマーク作成を大規模化することを提案する。
- 著者らは、多次元の品質評価に基づく結果として、自動生成されたベンチマークが手作業でキュレーションされたものと同程度の多様性を達成することを報告している。
- 実験結果は、抽象的な時系列推論とドメイン特化の応用のいずれにおいても、LLMの性能は依然として限定的であり、時系列理解におけるギャップが継続していることを示唆している。




