TimeSeriesExamAgent:大規模に時系列推論ベンチマークを作成する

arXiv cs.AI / 2026/4/14

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、LLMが表面的なパターン照合を超えて時系列データを本当に理解しているのかを問い、既存のベンチマークはしばしば手作業でキュレーションされ、範囲も限定的である点を指摘している。
  • 合成時系列に基づく多肢選択式ベンチマーク「TimeSeriesExam」を提案し、5つの推論カテゴリ(パターン認識、ノイズ理解、類似性分析、異常検知、因果性)に整理する。
  • 「TimeSeriesExamAgent」を導入し、医療・金融・天候といった実世界データセットから、試験のようなタスクを自動生成することで、ベンチマーク作成を大規模化することを提案する。
  • 著者らは、多次元の品質評価に基づく結果として、自動生成されたベンチマークが手作業でキュレーションされたものと同程度の多様性を達成することを報告している。
  • 実験結果は、抽象的な時系列推論とドメイン特化の応用のいずれにおいても、LLMの性能は依然として限定的であり、時系列理解におけるギャップが継続していることを示唆している。

Abstract

大規模言語モデル(LLM)は時系列モデリングのタスクで有望な性能を示しているものの、果たして時系列データを本当に理解しているのでしょうか?この根本的な問いに答えるために複数のベンチマークが提案されてきましたが、その多くは人手で作成され、限定された領域や特定のスキルセットに焦点を当てています。そこで本研究では、テンプレートの柔軟性とLLMエージェントの創造性を組み合わせることで、包括的な時系列推論ベンチマークを作成するためのスケーラブルな手法を提案します。まず、合成時系列を用いた多肢選択式ベンチマークであるTimeSeriesExamを開発し、5つの中核となる推論カテゴリ(パターン認識、ノイズ理解、類似性分析、異常検知、因果性)にわたってLLMを評価します。次に、TimeSeriesExamAgentにより、医療、金融、天気の各ドメインにまたがる実世界のデータセットからベンチマークを自動的に生成することで、このアプローチをスケールします。多次元の品質評価を通じて、私たちが自動生成したベンチマークが、人手で作成された代替手法と同等の多様性を達成していることを示します。しかし実験の結果、LLMの性能は、抽象的な時系列推論とドメイン固有の応用の両方において依然として限定的であり、これらのモデルにおける効果的な時系列理解を可能にするための継続的な課題が浮き彫りになりました。TimeSeriesExamAgentは https://github.com/magwiazda/TimeSeriesExamAgent で利用可能です。