要旨: 時系列予測は、金融、ヘルスケア、クラウドコンピューティングにまたがって重要であるにもかかわらず、基礎的なボトルネックによって進歩が制約されている。それは、大規模で高品質なベンチマークの不足である。このギャップに対処するため、我々は extsc{QuitoBench} を提案する。これは、時系列予測のためのレジーム(状況)バランス型ベンチマークであり、8つのトレンド imes季節性 imes予測可能性(TSF)レジームにわたるカバレッジを備える。アプリケーションで定義されたドメインラベルではなく、予測にとって重要な特性を捉えることを目的として設計されている。このベンチマークは、 extsc{Quito} に基づいて構築した。これは、Alipay のアプリケーション通信トラフィックから成る、10億スケールの時系列コーパスであり、9つのビジネス領域にまたがる。深層学習、基盤モデル、統計的ベースラインの計10モデルを、232,200の評価インスタンスに対してベンチマークし、4つの主要な知見を報告する。(i) 文脈長のクロスオーバーが観測され、短い文脈(L=96)では深層学習モデルが優位だが、長い文脈(L 576)では基盤モデルが支配的である。(ii) 予測可能性が主要な困難要因であり、レジーム間で 3.64 imes のMAEギャップを生み出す。(iii) 深層学習モデルは、59倍少ないパラメータ数で基盤モデルに同等、あるいは上回る。(iv) 学習データ量をスケールすることは、両方のモデルファミリーにおいて、モデルサイズをスケールするよりもはるかに大きな利益をもたらす。これらの知見は、強力なクロスベンチマークおよびクロス指標の整合性によって検証される。我々のオープンソースの公開により、時系列予測研究において再現可能で、レジームを考慮した評価が可能となる。
QuitoBench:高品質なオープン時系列予測ベンチマーク
arXiv cs.LG / 2026/3/30
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文では、ドメインラベルよりも予測に関係する性質をより適切に反映するため、トレンド×季節性×予測可能性(TSF)の8つのレジームにわたる、レジームバランス型のオープン時系列予測ベンチマーク「QuitoBench」を提案する。
- 著者らは、アリペイ(Alipay)から取得した9つの業務ドメインにまたがる、10億規模の時系列トラフィック・コーパス「Quito」を用いて、深層学習モデル、基盤モデル、統計的ベースラインを含む計10の予測モデルを、232,200件の評価インスタンスで検証する。
- 結果として、コンテキスト長に関するクロスオーバーが示される。すなわち、深層学習モデルは短いコンテキスト長(L=96)で優位となり、一方で基盤モデルは長いコンテキスト(L≥576)で主導する。
- 予測可能性(forecastability)が主要な困難要因であることが特定され、レジーム間でMAEに3.64倍の差が生じる。さらに、深層学習は、基盤モデルより59分の1のパラメータ数で、同等、またはそれ以上の性能を達成する。
- 学習データ量を増やすことは、深層学習・基盤モデルのいずれのモデル群においても、モデルサイズを増やすより大きな改善につながることが分かる。著者らは、再現可能でレジームを意識した研究のためにベンチマークを公開する。



